Dans la course au moteur de traduction automatique le plus performant, le Massachusetts Institute of Technology (MIT), l’Université de Californie à San Diego (UCSD), et IBM ont travaillé de concert sur un modèle de traduction automatique pour le moins original : VALHALLA.
Multilingual le décrit comme un Multi-modal machine translation model, c’est-à-dire un modèle qui accepte plusieurs types de données d’entrée comme source d’entrainement.
Dans un premier temps, VALHALLA crée une image à partir du texte source. Il utilise ensuite cette image générée et le texte source pour adapter sa traduction au contexte. L’exemple cité par Marketpost est plus évocateur pour comprendre son fonctionnement.
La phrase source est : “A snowboarder wearing a red coat is going down a snow-covered slope”. VALHALLA génère une « hallucination visuelle » sous forme d’image puis l’utilise pour s’assurer que la traduction correspond bien au contexte décrit.
Cette méthode semble être plus performante sur des langues avec peu de ressources accessibles et dans des cas de figure où une partie du texte source est manquante, d’après les premières conclusions tirées par les chercheurs.
Si vous êtes intéressés par ce modèle, retrouvez le code source ici.
Même si cette méthode paraît loufoque, quoi de plus logique au fond ? Lorsque nous apprenons une langue, la vue joue un rôle majeur dans l’identification du contexte et de l’apprentissage du vocabulaire. Pourquoi une intelligence artificielle fonctionnerait-elle différemment ?
Sources :
- https://multilingual.com/valhalla-visual-hallucination/
- https://www.svcl.ucsd.edu/publications/conference/2022/valhalla/main.pdf
- https://research.ibm.com/publications/valhalla-visual-hallucination-for-machine-translation
- https://www.languageconnections.com/blog/valhalla-using-images-for-better-machine-translation/
- https://www.marktechpost.com/2022/06/10/meet-valhalla-a-machine-learning-method-that-can-hallucinate-an-image-of-written-words-and-then-use-it-to-help-translate-the-text-into-another-language/