Abbattere il colonialismo linguistico

La ricchezza linguistico-culturale dell’Africa resta largamente sottorappresentata in Internet

Abbattere il colonialismo linguistico

Poche delle oltre 2mila lingue del continente sono riconosciute dai sistemi di traduzione e di intelligenza artificiale. Sono considerati idiomi a “basse risorse”, eppure rappresentano il 68% delle lingue parlate. Un gap che va colmato

11 Luglio 2024

Articolo di Antonella Sinopoli

Tempo di lettura 5 minuti

Evolversi e interagire nel mondo e con il mondo vorrà dire sempre di più espandere i confini di Internet. Questo vale anche per l’Africa. Un continente che parla oltre 2mila lingue, delle quali poche e in misura minore sono riconosciute dai sistemi di intelligenza artificiale (AI) come ChatGPT, Google Translate o Siri.

Nella maggior parte dei casi non sono affatto riconosciute. Si paga lo scotto di un colonialismo che è stato anche imposizione di lingue, e di una predominanza di cultura orale che non ha consentito a molte lingue di espandersi nella scrittura e quindi di essere codificate in manuali.

Pensiamo, ad esempio, che solo nel 1949 venne creato l’alfabeto N’Ko per preservare la lingua mandinga parlata in molta parte dell’Africa occidentale. Solomana Kanté capì quanto fosse importante che la lingua orale fosse anche scritta.

Quelli africani rientrano nella categoria dei linguaggi “a basse risorse”. Nel mondo esistono circa 7mila lingue, ma solo una ventina di queste possiedono un corpus testuale di centinaia di milioni di parole.

L’inglese è di gran lunga la lingua con la maggiore quantità di dati. Altre lingue con ampi database includono quelle europee ma anche il giapponese. Secondo i dati elaborati da W3Techs l’inglese è utilizzato dal 49,9% di tutti i siti web di cui conosciamo la lingua in cui vengono espressi i contenuti. Seguono, ad ampia distanza, lo spagnolo (5,9%), il tedesco (5,4%), il giapponese (4,9%).

Queste lingue rappresentano quelle “ad alto contenuto di risorse”, e sono quelle che attualmente dominano l’Internet globale. Le lingue africane invece, insieme a molte altre, sono utilizzate da meno dello 0,1% dei siti web. La cosa paradossale è che molti siti con contenuti in lingue conosciute utilizzano, ad esempio, il norvegese, che conta 4 milioni di parlanti, rispetto al kiswahili, che ne conta 200 milioni.

E ancora, quello che dovrebbe colpire è che queste lingue cosiddette a “basse risorse” rappresentano il 68% rispetto alle lingue parlate. È quindi chiaro che il Natural Language Processing (NLP) – la capacità di un programma per computer di comprendere il linguaggio umano così come viene parlato e scritto, componente fondamentale dell’intelligenza artificiale – è fortemente penalizzante per milioni e milioni di individui.

Ma porta con sé anche conseguenze e implicazioni di natura ideologica. E di supremazia di culture, saperi, informazioni di una parte del mondo sull’altra. Ma le cose si stanno muovendo per colmare quei gap, superati i quali non solo Internet parlerà più lingue, ma le comunicazioni saranno più aperte, chiare, democratiche.

A cominciare da Google che recentemente ha annunciato l’aggiunta di 110 lingue (la maggior parte del cosiddetto Sud del mondo) per il servizio di traduzione e per un totale di 614 milioni di utenti che le parlano, pari all’8% circa della popolazione mondiale.

Secondo le informazioni, un quarto di queste lingue sono africane e includono quella fon, kikongo, luo, ga, swazi, venda, wolof, ma anche la lingua mandinga che citavamo prima e la tamazight, lingua berbera del Nordafrica.

Fino a un anno fa solo 25 lingue africane erano supportate da Google Translate e la maggior parte di loro sono molto parlate anche all’estero dalla diaspora dei vari paesi.

C’è però un problema, evidenziato sia dai tanti volontari o esperti che lavorano a questi processi di integrazione delle lingue nei sistemi di traduzione, sia da linguisti e scienziati che lavorano nel campo dell’OER (Open Educational Resources).

Può accadere che le traduzioni siano imprecise o addirittura scorrette, che non tengano conto dei contesti a cui quelle determinate parole fanno riferimento (contesti che, a seconda dei casi, possono modificare i significati), che non ci siano parole di riferimento nell’altra lingua.

Il giornalista scientifico sudafricano, Sibusiso Biyela, che si batte per la decolonizzazione della scienza e del linguaggio scientifico, ha fatto notare che, per esempio, non esistono parole per “dinosauro”, “Giurassico”, “fossilizzazione” o “evoluzione” in isiZulu (comunemente zulu, parlata da 10 milioni di persone in Sudafrica).

E così quando gli è stato commissionato un articolo, proprio nella sua lingua madre, sulla scoperta di una nuova specie di dinosauro, quello che ha fatto, attraverso un’opera di ricerca e di inventiva, è stato costruire un lessico inglese-isiZulu su termini scientifici che prima non esistevano.

Dunque, se aggiungere lingue ai sistemi di traduzione è molto importante, i computer hanno difficoltà a identificare i set di dati con cui lavorare. E magari con cui fare incroci di informazioni. Gli sforzi sono limitati dalla scarsità di documenti sul web scritti nella maggior parte delle lingue africane.

Oggi, reti di ricercatori africani si stanno impegnando nella ricerca di modi per aumentare i dati sul web nelle lingue del continente, inclusa la documentazione dei termini scientifici nelle lingue dove attualmente tali termini non esistono. Dati che poi saranno disponibili per essere utilizzati dall’intelligenza artificiale per migliorare l’accesso alle lingue africane.

Intanto si moltiplica l’inventiva per colmare le lacune di Internet. Per esempio in Ghana, dove, ad Accra, nel 2018 Google ha aperto il suo primo centro di ricerca sull’intelligenza artificiale. In qualche modo, dunque, sorprende che solo due lingue ghanesi, su circa 80, siano rappresentate nel sistema di traduzione.

Per ovviare a questo oggi esiste un’app, Khaya, che traduce non solo nelle principali lingue locali ma anche in alcune delle lingue africane più diffuse. I creatori, che fanno parte di un’iniziativa open-source a base volontaria, sottolineano l’utilizzo sociale dell’app: per esempio negli ospedali dove i medici curano pazienti che parlano lingue totalmente diverse o nelle aule di tribunale dove i traduttori scarseggiano.

Le fonti utilizzate per realizzare il database? La Bibbia nelle varie traduzioni e le persone reali incontrate da editori di Wikipedia che lavorano su articoli in lingue locali. Piccole iniziative che rendono chiara l’esigenza di abbattere le barriere linguistiche anche su Internet.