Ils existent depuis 50 ans et, pourtant, les traducteurs automatiques donnent toujours du fil à retordre à nos chercheurs. Pourquoi est-il si difficile d’appeler un chat « a cat » ?
C’est à vous dégoûter de croire en la science. Prenez la phrase de Saint Matthieu : « L’esprit est fort et la chair est faible ». Passez-là au traducteur automatique en anglais, puis en russe, et à nouveau en français. Vous aurez de bonnes chances de voir revenir : « L’eau-de-vie est bonne et la viande est ramollie » ! L’expérience cocasse et authentique du mathématicien Raymond Smullyan est restée célèbre dans le petit monde de la traduction automatique. Comme lui, on s’est tous amusé à faire tourner en bourrique les logiciels de traduction automatique (ou TA). Autant le dire tout net : à l’orée du XXIe siècle, penser que l’on peut traduire automatiquement Flaubert ou Lao-Tseu dans toutes les langues du globe n’est qu’un phantasme pour vieilles barbes. Et une amère désillusion pour les autres.
Une machine
ne comprend rien
Dans les années 40, on a pourtant cru à la machine miracle : guerre froide oblige, les logiciels devaient servir à traduire les textes soviétiques en anglais. Hélas, au Pentagone, on est vite retombé sur terre : en 1965, le rapport américain Alpac déclare la TA inopérante et coupe tous les crédits. Aujourd’hui, avec l’explosion d’Internet, grâce auquel un Taïwanais discute de plus en plus souvent avec un Auvergnat, les besoins de traduction sont énormes. Mais les logiciels sont peu nombreux (Systran, Reverso, etc.) et aucun n’est vraiment à la hauteur de nos attentes. Mais pourquoi les traducteurs nous résistent-ils encore ?
Tout d’abord, parce que la langue écrite que nous utilisons n’est pas celle des livres de grammaire : elle est tortueuse et surtout terriblement ambiguë. En moyenne, chaque mot de français comporte deux sens différents. On comprend, alors, que traduire une phrase mot à mot, comme le faisaient les premiers logiciels de TA, conduit à dire à peu près n’importe quoi. À appeler une pomme de terre « apple of earth », et à transformer « I’m 30 years old » en « Je suis 30 ans rassis ». Navrant. C’est pour cette raison qu’actuellement, la plupart des programmes considèrent la phrase dans son intégralité avant de la traduire. Mais ce n’est pas la fin des tracas, loin de là.
Parce que, fondamentalement, comme le souligne Laurence Danlos, professeur de linguistique informatique à l’université Paris VII : « On ne traduit pas sans comprendre. » Or, une machine ne comprend rien. Prenons une suite de deux phrases aussi simple que : « J’ai mis un glaçon au soleil. Il a fondu. » Le « il » désigne-t-il le glaçon ou le soleil ? Un traducteur humain n’hésitera pas une seconde. La machine, elle, sera perdue, car incapable de connaître nos évidences culturelles. Et, à en croire l’avancement des recherches en intelligence artificielle, elle n’est pas sortie de l’auberge. Tant mieux, diront certains. « Si le traducteur parfait existait, ce serait un clone d’homme », sourit Jean-Philippe Guillbaud, ingénieur de recherche linguistique à l’université Joseph-Fourier de Grenoble. « Un clone avec lequel vous pourriez faire la causette, à qui vous pourriez vos problèmes personnels. » C’est un point essentiel : saisir le « sens » d’un texte constitue bien un début de conscience. Mais recréer ce début de compréhension est un travail phénoménal : cela revient à donner à chaque acception des mots de notre langue toutes les nuances que nous lui connaissons dans tous les contextes donnés. « C’est comme décrire l’univers. On n’en voit jamais le bout ! », s’exclame Christophe Chenon, chercheur en TA à Grenoble. Une entreprise titanesque dans laquelle seul le Français Maurice Gross a osé se lancer.
Un taux de réussite
de 99 %
Et puis, il y a un autre élément sur lequel les scientifiques se sont cassé les dents : le langage pivot. Cette Arlésienne de la TA a été inventée dans les années 70, sous la plume de linguistes iconoclastes, comme l’Américain Noam Chomsky. Le langage pivot ? C’est une sorte de noyau commun universel, une langue imaginaire qui réunit les concepts linguistiques communs à toutes les langues de la Terre. Découvrir ce pivot nous aurait permis de contrôler une passerelle entre toutes les langues. Mais il a bien fallu s’y résoudre : ce pivot n’existe pas. « Plus on le cherchait, plus ça devenait difficile, se souvient Catherine Fuchs, linguiste et directeur de recherche au CNRS. En fait, on ne l’a jamais trouvé. »
Alors, les linguistes ont découvert autre chose : l’approche dite « par transfert », née à la fin des années 70 et qui fait toujours florès. Celle-ci ne se contente pas d’un seul niveau d’analyse, mais en prend deux en compte. Tout ça pour obtenir ce que les spécialistes nomment une « représentation ». Prenez, par exemple, la phrase : « Il regarde le ciel. » La machine la passe dans une première moulinette, syntaxique (qui permet de décortiquer les noms (ciel), les verbes (regarder), les prépositions, etc. Puis la glisse dans une seconde, sémantique, qui indique le sens à donner à cette phrase : c’est à cette étape que le traducteur note la différence entre le verbe « regarder », tel qu’il est employé ici, et dans une phrase comme : « Il regarde à la dépense. » Une fois la représentation de la phrase établie, le module de transfert a pour tâche de la transformer en une représentation équivalente dans une autre langue. Plus efficace, mais sans doute moins excitant.
Version grand public
Aujourd’hui, progrès de l’informatique ou pas, le constat n’est guère enthousiasmant : « Les chercheurs ont revu leurs ambitions à la baisse », admet Catherine Fuchs. En un mot, ils ont abandonné l’idée de mettre au point un traducteur universel, capable de travailler sur n’importe quel type de texte. Car il est au moins un point sur lequel tous les spécialistes s’entendent : plus le vocabulaire des textes à traduire est spécialisé, meilleur est le résultat. La libre conversation sur tous les sujets est l’ennemie des traducteurs. Le système canadien TAUM-METEO, dédié à la traduction des bulletins météo de l’anglais au français, en est le meilleur exemple : mis en place depuis 1976, il fonctionne avec un taux de réussite qui avoisine les 99 % ! Des performances étonnantes, mais facilement explicables par la faible quantité de vocabulaire et la simplicité de la syntaxe. De son côté, le logiciel Systran, qui montre de piètres performances dans sa version grand public, offre de bien meilleurs résultats dans ses versions professionnelles, basées sur des dictionnaires ultra-spécialisés. D’une certaine manière, on peut même dire qu’il outrepasse bien des traducteurs humains, car il en est peu qui connaissent à fond le lexique franco-hongrois dans les domaines de la robinetterie industrielle ou de l’équarrissage de bovins...
La machine à déduction
Et puis, il ne faudrait pas croire que 50 ans de travaux menés en traduction automatique sont restés stériles. D’une part, parce que les travaux des spécialistes ont abouti à faire progresser d’autres secteurs, comme la recherche de termes ou de textes dans les documents ou la correction orthographique. Ensuite, parce que tous les chercheurs n’ont pas dit leur dernier mot : certains étudient actuellement la possibilité de mettre au point une machine à déduction. Oui, à déduction ! Le projet est encore balbutiant, mais particulièrement prometteur. Avec deux phrases en français qui se ressemblent et leurs traductions respectives, le traducteur pourrait faire des prouesses : être capable de « comprendre » ces ressemblances, de les intégrer et savoir les réutiliser plus tard, quand une phrase approchante se profilera. En deux mots, apprendre, puis déduire, sans aide humaine, ce qu’il faudra traduire à partir de ce qui a déjà été traduit. Juste un beau rêve ?