Diplômé de médecine (Harvard) et de bio-informatique (Massachussets Institute of Technology), Lincoln Stein est chercheur au service du projet Génome humain. Cet Américain de 40 ans développe des outils informatiques au sein du laboratoire new-yorkais Cold Spring Harbor. Il veut mettre à la disposition des biologistes un système de partage des observations scientifiques. Via un réseau. Pour que la recherche génétique avance.
Lancé au début des années 90, le projet Génome humain est en passe d’atteindre son but : fournir à la communauté scientifique une cartographie complète de l’ADN de nos chromosomes. Les responsables du projet ont annoncé, fin juin, avoir terminé la première ébauche de carte avec 90 % des 3,6 milliards de bases de l’ADN humain séquencées et cartographiées. Mais le projet ne s’achèvera qu’une fois connue la signification biologique des 30 000 portions utiles à cet ADN - les gènes.
Pour avancer, les laboratoires devront encore recouper une masse considérable d’informations et échanger en permanence leurs observations. Et pour ça, Internet est de loin le média le plus performant. C’est sur ce constat que s’appuie Lincoln Stein pour lancer le projet DAS (Distributed Sequence Annotation System). Un système qui, comme Napster pour la musique, peut mettre en commun toutes les bases de données de la recherche génétique.
Dans quel contexte votre projet de « Napster du génome humain » prend-il place ?
En juin dernier, le projet Génome humain a établi la séquence de 3 milliards de paires de bases de l’ADN humain [soit plus de 85 % de notre matériel génétique]. Mais cette séquence d’ADN n’est encore qu’un long texte sans ponctuation dont nous ne connaissons presque aucun mot. L’étape suivante va être de trouver une signification à cette chaîne de lettres. Il va falloir identifier les gènes, puis établir leur signification biologique. Cette tâche ne s’achèvera jamais, car de nouvelles questions vont surgir. Notre projet, DAS, se propose de fournir un médium qui aidera la communauté scientifique à mieux répondre à ces questions.
Pour étudier le génome, quelle est l’utilité de l’informatique ?
Tout d’abord, des milliers de laboratoires travaillent sur le projet Génome humain, et Internet leur est devenu indispensable. Les uns et les autres ont des sites Web connectés directement à des bases de données, avec des formulaires qui permettent d’aller consulter ces informations. Ensuite, nous avons besoin de l’informatique pour stocker et analyser la masse de données génétiques issue des observations biologiques. Seul un traitement informatique nous permettra de déterminer où commencent et où finissent les gènes, quelles sont leurs fonctions et comment ils interagissent entre eux.
À quoi sert votre système de partage de fichiers ?
Il faut savoir qu’en fait de Génome humain, la communauté scientifique a séquencé l’ADN d’un seul individu - blanc, mâle et anonyme. Or, les êtres humains sont tous différents, leurs génomes s’écartent donc tous, plus ou moins, de ce « standard » du domaine public. Quand un laboratoire trouve une différence dans le génome d’une personne par rapport au modèle de base, il l’indique en « annotant » la séquence standard. Il rajoute des indications sur sa propre base de données. [Il montre sur l’écran une série de chiffres et de lettres cabalistiques, sous le titre « homo sapiens clone »] Vous voyez ici un type d’annotation qui indique que sur tel chromosome, on a trouvé telle ou telle différence avec le modèle de base. Imaginons qu’ailleurs dans le monde, un autre chercheur travaille sur le même gène et découvre que cette différence-là est justement un facteur de vieillissement. La recherche ferait une avancée majeure en croisant immédiatement les deux informations... Aujourd’hui, cela peut prendre beaucoup de temps. Il est souvent impossible aux laboratoires de visualiser d’autres bases de données que la leur. D’abord pour des raisons d’incompatibilité logicielle, ensuite parce que chaque laboratoire a son propre système d’annotation. Regardez : parfois, ce ne sont même pas les mêmes mots pour dire « homme » ! [Il montre un autre paragraphe de données, titré « human DNA »]. Mon système permet à ces bases éparpillées de communiquer entre elles.
Comment ça marche ?
En cliquant sur un bouton, on demande à d’autres personnes, exactement comme sur Napster, si elles ont des informations sur tel fragment d’ADN, tel gène. Chaque scientifique publie ses annotations sur son serveur, qui se trouve dans le réseau, afin que les autres puissent y accéder. Ce qu’il y a d’intéressant dans Napster, c’est qu’il vous évite de passer toute la nuit à chercher un fichier. L’ordinateur le fait pour vous. Ce que je veux, c’est que les biologistes échangent leurs annotations de la même manière que les fans de musique partagent leurs MP3. C’est pour cela que j’ai inventé le Napster du génome humain.
Quand ce système sera-t-il opérationnel ?
C’est un projet pour l’an 2000. Nous avons déjà un prototype qui fonctionne. Nous sommes trois à travailler dessus. Comme c’est en open source, une douzaine d’autres personnes sont en train de créer des serveurs pour les bases de données. Ce sont des scientifiques qui maîtrisent à la fois la biologie et l’informatique.
Si le partage de fichiers est dans l’air du temps, il est également risqué : c’est un bon moyen de propager des virus...
Ça, c’est surtout le problème de Gnutella. Mais le DAS ne partage pas de fichiers exécutables, ce qui le met à l’abri des virus. Nous avons tout de même une inquiétude : quelqu’un pourrait injecter des données erronées dans le système. On a déjà vu ça sur Napster, avec cuckoo.com. Ce logiciel a été développé par des anti-Napster. Ce n’est pas un virus, mais une petite application qui reproduit le chant d’un coucou dès qu’on l’appelle. Il suffit de nommer le fichier « Bruce Springsteen », par exemple, et de l’introduire dans le réseau... Quelqu’un qui voudrait induire en erreur la communauté scientifique pourrait fabriquer un logiciel similaire.
Comment peut-on se prémunir ?
Il faudrait inventer un système d’annotation des participants. Chacun ferait des liens vers les annoteurs en qui il aurait confiance. Avec une signature numérique à chaque contribution. Un peu comme le peer review [le contrôle par ses pairs] dans les revues scientifiques : quand on écrit un article, s’il est digne de foi, il sera accepté par les publications sérieuses et bénéficiera d’un label, d’une signature.