Selon une étude de BrightPlanet, le réseau Internet est 500 fois plus vaste que la zone - déjà énorme - connue des moteurs de recherche. Il faut dire que le Web recèlerait quelque 550 milliards de pages !
Tous les chiffres qui concernent Internet ne peuvent être que des estimations, mais elles donnent le vertige : ainsi, une étude de la firme californienne BrightPlanet révèle que la Toile dans son intégralité est 500 fois trop vaste pour pouvoir être quadrillée par les moteurs de recherche, même les plus puissants. Jusqu’à ce rapport - rendu public pour promouvoir Lexibot, un nouveau logiciel de recherche ultra-puissant - on savait les dimensions du Net pratiquement comparables à celles de l’espace intergalactique. Mais on ne soupçonnait pas une telle ampleur. Réunies, les "araignées" (le surnom des moteurs de recherche) peuvent ainsi indexer un milliard de pages, alors le Web en compte plus de... 550 milliards. Ce No Man’s Land du cyberespace compterait quelque 100 000 sites. Les 60 plus gros sites de cette partie du Web dite invisible ou profonde sont déjà plus de 40 fois plus larges en information que ce que tous les moteurs peuvent quadriller !
Des "trous noirs"
Les documents non visités se trouvent dans les bases de données. Ce sont des pages dites "dynamiques", alors que les moteurs s’intéressent surtout aux pages statiques. (Par exemple, un moteur trouvera la page de une statique de Transfert, mais pas le présent article dynamique, rangé au sein des archives). Pourquoi ? "Les moteurs ne peuvent ou ne veulent pas y avoir accès car ils pourraient accidentellement tomber dans un « piège à araignée », qu’on appelle aussi un « trou noir »", explique Danny Sullivan, responsable de SearchEngineWatch.com, un site spécialisé dans les moteurs de recherche. L’effet serait désastreux pour l’araignée, qui ramènerait encore et encore le même document sous des adresses url différentes. Résultat : des informations qui seraient, selon BrightPlanet, 1 000 à 2 000 fois plus riches que celles du Web visible échappent aux internautes. Et gâchis énorme, les moteurs "laissent tomber la moitié des pages, qui n’ont aucun intérêt", explique Olivier Andrieu, consultant Internet de la société Abondance, car elles sont dénuées de texte ou répétitives... Bref, les “araignées”, comme les humains, manquent encore de souffle pour aller explorer les fonds abyssaux du Web, qui livreront peut-être un jour leurs secrets.