publicité

Argot et rédaction approximative : comment la traduction instantanée déboule sur Messenger (Facebook)


Technologie : Pas facile de traduire des messages envoyés précipitamment et sans relecture. C'est pourtant le défi auquel s'attaque M Translations sur le marché français. En commençant par l'anglais.

Messenger, l'application de messagerie instantanée de Facebook, permet désormais de traduire les discussions du français à l'anglais, et inversement.



"Nous pensons que M (l'assistant automatisé embarqué dans la messagerie) est le meilleur outil pour suggérer cette fonctionnalité là" assure Laurent Landowski, de Messenger. Concrètement, quand un utilisateur de Messenger reçoit un message dans une langue différente de sa langue indiquée par défaut dans Messenger, M propose s’il le souhaite de traduire le message entrant, et tous les messages suivants. A noter que les traductions automatiques sont activées par conversation (quelle soit en one-to-one ou collective) et peuvent être désactivées à tout moment.

"Nous avons fait le choix au niveau produit de laisser en permanence le message d'origine, pour que ce soit clair pour les deux personnes" dit le responsable du projet.

Adapter la traduction à un langage dégradé


Cet outil décline une fonctionnalité déjà présente sur les autres produits du groupe. "Depuis 4 ans la traduction est présente sur Facebook" explique Laurent Landowski, qui précise que 8 milliards de messages sont traduits chaque jour sur le réseau social. "Nous adoptons les modèles qui marchent bien pour Facebook et Instagram aux conversations sur Messenger".

Et cela n'est pas une mince affaire puisque Facebook revendique 1,3 milliard d'utilisateurs sur Messenger. Une déclinaison qu'il a fallu beaucoup travailler. "Au niveau technique, sur Messenger, la latence, c'est à dire la capacité à traduire très rapidement, est un des sujets" dit Laurent Landowski.

"Ensuite les messages des utilisateurs sur Messenger sont beaucoup moins bien formatés grammaticalement et au niveau de l'orthographe. Il y a beaucoup d'abréviations, beaucoup d'argot, il y a aussi beaucoup de simplification, avec peu d'accents et d'apostrophes" explique t-il. Donc traduire ce type de contenu est un petit défi, même pour un moteur neuronal très entraîné. "Comme l'utilisateur ne relit pas, le langage est un peu plus dégradé que sur Facebook, et c'est pour ça que l'on travaille sur l'adaptation des modèles de traduction".

La puissance des moteurs neuronaux


"Les technologies de traduction que l'on utilise sont basées sur des réseaux neuronaux . C'est ce qui a permis de faire un véritable bond dans la qualité de la traduction automatique, parce que précédemment on devait pour chaque nouvelle paire de langue recommencer quasiment à zéro" explique Laurent Landowski. Facebook utilise la technologie de "multiword embedding". Une technologie qui permet de représenter le monde et les concepts dans différentes langues dans le même espace. "Dans ce système de "word embedding", 'soccer' va être très proche de 'football', mais pas aux Etats-Unis. Donc on utilise ce type de technologie pour aller beaucoup plus vite et éviter d'avoir à repartir de zéro pour chaque nouvelle paire" dit le spécialiste.

Côté technique encore, Messenger utilise uniquement le RNN (Réseau de neurones récurrents ou Recurrent Neural Network). Une technique plus avancée utilisée par Facebook pour la traduction à base d'IA est le CNN (Réseau neuronal convolutif ou Convolutional Neural Network). Les responsables de Messenger travaillent cependant en étroite relation avec le FAIR (Facebook artificial intelligence research, un programme dirigé par le français Yann le Cun lancé depuis 2013) pour profiter des derniers avancées dans le domaine de l'IA.

A la recherche de corpus riches


Côté données (car l'entraînement des moteurs neuronaux exige d'utiliser de gros volumes de données), Facebook utilise diverses sources, gratuites bien sûr.

"Nous utilisons un peu les données des utilisateurs (de Facebook et Messenger) pour améliorer les moteurs neuronaux. Mais pour les test et la recherche, on utilise des corpus qui sont disponibles à n'importe qui. Cela nous permet de nous étalonner par rapport à d'autres". Les textes du Parlement Européen, tout comme les vidéos et la retranscription des débats sont mis à disposition gratuitement. Et Facebook (comme les autres) en profitent.

"C'est une mine d'or pour nous parce que ça nous permet d'avoir un corpus traduit dans plein de langues différentes, avec un corpus audio, vidéo et texte. Ça nous permet d'être sur que l'on fait avancer la recherche dans le bon sens" dit Laurent Landowski.

Prochaines étapes pour le marché français ? Différentes paires de langues, et... peut être les émojis. "Nous travaillons déjà sur l'espagnol, l'italien, le portugais et l'arabe. Et c'est pour bientôt en France" dit Laurent Landowski. "Pour les émojis, nous n'avons pas encore réfléchi sur la manière dont ils sont interprétés entre les personnes qui parlent différentes langues. Mais c'est vrai que culturellement il pourrait y avoir des différences" explique le responsable de M.

A lire aussi :

Zuckerberg ou Sandberg : de qui Facebook devrait-il se désinscrire en premier ?

Opinion : Une enquête dévastatrice du New York Times révèle un Facebook dans lequel ses deux hauts responsables se...

Articles relatifs

Contenus sponsorisés

Contenus partenaires

Réagissez à l'article

Connectez vous ou Enregistrez-vous pour commencer la discussion
publicité