Le projet américain Worldwide Lexicon veut bâtir un traducteur universel, en mariant travail humain et coopération "peer to peer". Une version beta est attendue pour la fin de l’année.
Vous ne parlez pas tchèque, elle ne parle pas français. Pour la draguer, deux options : consacrer dix ans à apprendre le tchèque ou passer 10 minutes en ligne à faire traduire automatiquement vos mots doux. Dans le deuxième cas, les résultats sont parfois catastrophiques, de l’erreur idiomatique au non sens total.
Si certains, comme le collectif Babels, tentent déjà de régler ce problème en faisant appel à des traducteurs humains, le projet Worldwide Lexicon (WWL) y ajoute la sauce peer-to-peer.
Lancée au printemps 2002 par Brian McConnell, un Américain spécialiste des télécoms, l’idée de Worldwide Lexicon est de créer un dictionnaire exhaustif, encyclopédique et multilingue en amenant dictionnaires et encyclopédies à parler la même langue.
Les auteurs de sites web comportant des lexiques n’auront qu’à se déclarer au serveur central, en respectant quelques règles simplistes de présentation de leurs listes de mots. Reprenant la formule qui a fait le succès du système d’échange Gnutella avec les fichiers MP3, un moteur de recherche parcourra le réseau de sites web ainsi constitué, empruntant à chaque "noeud" sa ou ses définitions.
Dans le cas du Lexicon, les internautes ne seront pas les seuls à interroger le moteur de recherche : cette possibilité sera aussi offerte aux logiciels car le WWL est un "service web", dont l’interface se base sur le protocole SOAP (Simple Object Access Protocol). Ce système simplifie les requêtes entre logiciels-clients et serveurs. En clair, un logiciel comme le célèbre traitement de texte Word pourrait interroger le serveur WWL sans que l’utilisateur ait besoin d’ouvrir son navigateur internet. L’interface en SOAP autorisera également des requêtes via email ou SMS.
Travail humain distribué
A la puissance des systèmes informatiques d’échange de fichiers, WWL a ajouté GNUTrans, un autre volet du projet, qui repose sur le caractère foncièrement humain de la traduction. Le concept de Brian McConnell s’appelle le "distributed human computing", du calcul distribué humain. Comme dans le programme SETI@Home, un projet collaboratif pour décrypter des signaux extraterrestres auquel McConnell collabore, les textes à traduire seront fragmentés et distribués aux membres du réseau pour un travail en "temps réel".
Pour participer au projet, les membres devront obligatoirement être disponibles devant leur ordinateur. Le principe est de repérer les traducteurs bénévoles par l’état de leur logiciel de messagerie instantanée comme AIM et ICQ, ou Jabber pour l’open source. Si le statut indique que l’internaute est "présent et disponible", une phrase ou un mot à traduire sera envoyé.
Pour ajouter de la pertinence dans les traductions et prévenir les erreurs ou dérives potentielles, un système de notation a été prévu. "Les mêmes mots seront proposés aléatoirement à plusieurs membres. Ils noteront les traductions existantes, pourront les raffiner, les modifier, voire en proposer d’autres", précise McConnell.
Ce nouveau mode de traduction présente un énorme avantage, selon l’initiateur du projet. Il contourne la difficulté à traduire des homonymes. "Par exemple, évoque McConnell, ’Like’ en anglais peut tantôt signifier ’semblant à’, et tantôt ’apprécier’. Les moteurs de traduction actuels butent sur ce genre de problème."
Appel aux volontaires
Vu le profil des bénévoles recherchés, McConnell a pensé demander leur aide aux écoles d’interprétariat. "Elles pourraient se servir de GNUTrans comme d’un outil pédagogique. C’est une façon plus intéressante d’apprendre les langues vivantes. Au lieu des exercices de traduction ennuyeux, ici, les élèves voient que leurs efforts servent à quelque chose."
Reste que le projet WWL en est toujours au stade du développement. "On espère sortir une version beta plus tard dans l’année et pouvoir l’intégrer à BOINC/SETI@Home (la prochaine version du SETI@Home, Ndlr). La forte notoriété de ce programme augmentera notre visibilité", avance McConnell, qui admet que son projet demeure "relativement inconnu", en dépit d’une présentation en 2002 à l’occasion du célèbre salon des technologies émergentes ECon.
"Le travail irait beaucoup plus vite avec une poignée de collaborateurs supplémentaires. GNUTrans est un système simple, mais s’appuie sur de nombreux composants. On aimerait avoir plus de personnes rompues au langage de programmation PHP, aux réseaux de messagerie instantanées et à l’analyse de texte. On aimerait également avoir du monde pour maintenir le bon fonctionnement du système une fois qu’il sera en place, plaide le père du WWL. Ce serait une bonne expérience pour des écoles techniques."
Une fois GNUTrans achevé, il restera à convaincre les internautes de participer au projet, mais Brian McConnell se veut confiant : "C’est le propre des logiciels open source que de rassembler des communautés de passionnés. Tout le monde a un métier ’réel’ et il est difficile de garder leurs attentions centrées sur le WWL."