Les langues les moins représentées sur Internet ont leur carte à jouer avec l’IA

Et si c’était enfin l’heure des langues dites « sous-représentées » ?

C’est en tout cas ce qu’espèrent de grands acteurs de l’intelligence artificielle et de la traduction automatique comme Facebook, Amazon, Google ou Microsoft.

Si la traduction automatique s’est mise à mieux marcher, c’est en partie grâce aux ressources et aux données massives qui se trouvent sur Internet. Problème ? Les langues disposant de moins de données en ligne, comme le swahili, l’afrikaans ou encore le grec, n’ont pas connu ces avancées fulgurantes.

Pourquoi ce retard ?

Celui-ci peut s’expliquer par le manque de données « parallèles » ou équivalentes (bi/trilingues) permettant d’alimenter et d’entrainer les moteurs de traduction automatique. De plus, l’anglais est souvent la langue pivot (on voit rarement des sites Internet traduits du tchèque au japonais), ce qui freine la création de modèles d’équivalences d’une langue à une autre. Les ressources publiques et gratuites sont très faibles et ne permettent pas de suivre le rythme effréné du progrès des langues les plus représentées. Cet article de Slator explique concrètement les obstacles rencontrés : https://slator.com/academia/mit-tackles-the-ultimate-low-resource-machine-translation-challenge/

Comment y remédier ?

Les GAFA et autres pointures en matière d’IA mettent en place des groupes de travail pour explorer les abysses d’Internet et trouver des données pertinentes pour la création et l’entrainement de moteurs neuronaux. Ces démarches d’entreprises privées qui n’ont pas peur d’investir dans ce domaine contribuent aux avancées de l’IA dans tous les domaines et bénéficient à tout un chacun.

Des démarches institutionnelles et publiques existent aussi : par exemple, des institutions comme la Commission européenne financent de telles recherches pour alimenter ses propres moteurs de traduction automatique et augmenter sa productivité en traduction. Les universités publiques et privées sont également mises à contribution.

D’autres projets comme le « Masakhane Project » (https://slator.com/machine-translation/the-masakhane-project-puts-africa-on-the-machine-translation-map/) sont menés directement en Afrique, et impliquent plus de 60 participants dans 15 pays pour créer des modèles de traduction automatique pour les langues africaines sous-représentées, et pour lesquelles les données présentes sur le Net sont quasi inexistantes.

En somme, le travail suit son cours, mais le « data mining » demande beaucoup de temps, d’analyses et d’investissement pour que tous ces projets voient le jour et portent leurs fruits.

Alors, quel est l’avenir de la traduction automatique ?

Malgré tous ces projets déjà en cours, la nouvelle obsession de ces mastodontes se tourne plutôt vers les « langues disparues » ou « langues très anciennes ». Leur objectif ? Un millier de mots leur serait potentiellement suffisant pour permettre au moteur neuronal de recréer la logique structurelle de ces langues et donc les déchiffrer !

À quand le premier moteur de traduction automatique de hiéroglyphes ?