On le répète assez souvent, mais les avancées technologiques sur le marché de la traduction et de l’interprétation progressent à vitesse grand V. Après la post-édition, l’interprétation à distance, ou encore les technologies de reconnaissance vocale, va-t-on connaitre une révolution du doublage ?
C’est en tout cas ce sur quoi le projet DeepMind (qui appartient à Google) planche : allier la reconnaissance vocale automatique, la traduction automatique, la génération de voix de synthèse et la reconnaissance du mouvement labial. Toutes ces technologies permettant de doubler automatiquement une vidéo (interview, série, films, etc.).
Selon les dires de la société, la technologie « reconnait les mouvements des lèvres de la personne qui parle pour les faire correspondre aux phonèmes de l’audio qui sera ensuite traduit ». Les expressions faciales de la personne qui parle sont donc modifiées pour paraitre plus naturelles.
Cette technologie fait bien évidemment penser aux polémiques liées aux « deepfake » (fausses vidéos truquées ultra-réalistes) et posent des soucis éthiques, mais soulèvent surtout des questions sur la qualité des vidéos traduites et doublées, et sur l’avenir du doublage traditionnel.
Même si ces technologies avancent vite, elles restent bien évidemment encore peu fiables et nécessitent, comme pour tout travail de traduction et de post-édition, l’intervention d’un humain.
Compte tenu de leur rapide progression, seront-elles massivement adoptées par la profession et par les publicitaires ou les sociétés qui valorisent et mettent en avant l’authenticité de leurs vidéos ? Se dirige-t-on vers des films entièrement doublés automatiquement pour accélérer leur sortie au cinéma ou sur une plateforme de streaming ?
Pas sûr que le public non plus n’accroche à ces voix synthétiques, mais comme pour toute technologie, nous referons le point dans quelques années…