C’est le plus grand modèle multilingue et open source qui vient de voir le jour, et il a été entraîné par le supercalculateur français Jean Zay… Souhaitons la bienvenue à BLOOM (BigScience Large Open-science Open-access Multilingual Language Model). L’objectif ? « Entraîner l’IA, sur un modèle de science ouverte et participative, » pour devenir « le plus grand modèle de langue multilingue et open source qui apprend à partir de grand corpus de textes et qui a pour but initial de générer du texte […]. ». Rien de moins.
Quelle est l’origine de ce projet ?
Hugging Face, start-up fondée par des Français à New York, est à la genèse de ce projet, auquel un millier de chercheurs en provenance de soixante-douze pays ont contribué. La start-up est soutenue par le CNRS, le GENCI et le ministère de l’Éducation supérieure et de la Recherche. Le modèle Bloom est ainsi le premier à intégrer largement la langue française en libre accès.
Comment fonctionne-t-il ?
BLOOM génère un texte ou une phrase et n’en garde que le premier mot, puis essaie de deviner les suivants. C’est ainsi que fonctionnent, par exemple, la prédiction automatique de Gmail ou les systèmes de suggestions de mots des smartphones lors de la rédaction d’un message. Les prédictions brutes de BLOOM sont ensuite comparées avec le choix de l’utilisateur, ce qui lui permet de s’auto-corriger et de mettre à jour ses paramètres à chaque sollicitation pour s’améliorer.
Même si l’objectif premier de ce modèle reste la traduction automatique, elle aura aussi d’autres usages comme « la détection de sentiments, la modération de contenus, la rédaction de textes lisibles à partir de chiffres bruts, les chatbots capables de répondre à de simples questions, ainsi que diverses opérations de simplification comme les résumés automatiques ».
Comment a-t-il été entraîné ?
Une fois le modèle structuré, il reste encore à trouver une machine capable de l’entraîner. « Le CNRS a proposé une dotation sous forme de cinq millions d’heures de calcul sur le supercalculateur Jean Zay, un des plus puissants d’Europe, déclare François Yvon, directeur de recherche CNRS au LISN. Cela permet en plus de tester le supercalculateur sur un tel volume de données, ainsi que de monter les équipes en compétence ». L’entraînement aura duré quatre mois (du 11 mars au 5 juillet 2022) et mobilisé « un quart de sa puissance totale grâce à quatre cents processeurs graphiques de pointe travaillant en parallèle ». Au total, BLOOM gère aujourd’hui 176 milliards de paramètres sur des textes.
BLOOM a travaillé en 46 langues simultanément et a incorporé des sources de données très variées, allant de textes littéraires à des articles de sport. Cette approche lui permet justement d’avoir un éventail de compétences plus large et donc de remplir des tâches différentes. L’article du CNRS signale d’ailleurs que « les données n’ont pas été triées en fonction de leur langue, car, paradoxalement, Bloom apprend mieux ainsi. Il est même plus efficace sur les langues habituellement sous-représentées, voire absentes, des modèles d’IA que s’il s’était seulement entraîné sur elles ». Ce qui rejoint le constat des modèles multimodaux de META AI et de Google. En ce qui concerne les données, elles ont été aspirées automatiquement sur Internet, notamment sur Wikipédia. Mais il a également fallu intégrer certains corpus de textes déjà disponibles, à accès payant (comme le propose le TAUS, par exemple).
Quelle est la différence avec les autres modèles ?
François Yvon nous explique : « Ils [les autres modèles existants] sont très compliqués à examiner, et les entreprises qui les ont créés ne sont pas complètement transparentes sur leur conception et leur fonctionnement ». Il ajoute : « Si on demande à un de ces modèles quelle est la couleur du cheval blanc d’Henri IV, il répond “blanc”. Cependant, nous n’avons aucun moyen de savoir si le modèle a appris “par cœur” la réponse, par exemple parce qu’on lui a déjà demandé, ou s’il l’a trouvée par ses propres moyens. »
Sous quelle forme se présentera BLOOM ?
Teven Le Scao, doctorant à l’Université de Lorraine et chercheur chez Hugging Face, avance trois niveaux d’utilisation, même si « dans la plupart des cas, le modèle final tournera sur les machines de Hugging Face ». Toutefois, les amateurs qui le souhaitent et qui en ont les compétences pourront utiliser le modèle pour créer des IA aux multiples usages.
Quel est son impact sur la planète ?
Au cœur des préoccupations du CNRS et de Hugging Face, des enquêtes seront menées pour « mesurer l’empreinte carbone de tels modèles, et comprendre comment ils fonctionnent lorsqu’ils sont multilingues ». Slator précise que le supercalculateur utilise essentiellement de l’énergie nucléaire et que la chaleur dégagée par son exploitation est réutilisée pour chauffer les logements du campus. En plus de mesurer et de s’inquiéter de son impact environnemental, le modèle incite les utilisateurs à adopter une charte éthique pour une utilisation responsable de l’IA et de ne pas l’utiliser à des fins négatives.
Nous n’avons désormais qu’une hâte, tester ce moteur et comparer les résultats avec les moteurs existants. Et vous ?
Sources :
https://www.cnrs.fr/fr/cnrsinfo/la-recherche-francaise-moteur-dun-nouveau-modele-dia
https://slator.com/most-important-ai-model-last-decade-large-language-model-bloom/
https://www.silicon.fr/bloom-mega-modele-ia-ouvert-sang-francais-443785.html#
https://www.generation-nt.com/bloom-intelligence-artificielle-langues-actualite-2003166.html