Dunod - E-xtrait : Les dix plaies d'Internet - Les dangers d'un outil fabuleux

cette désaffection des chercheurs pour Google, mais il est tout simplement possible que les recherches soient vouées à l’échec tant on manque d’éléments pour analyser le phénomène scientifique. En France, Jean Véronis, universitaire spécialiste de linguistique informatique, s’est pourtant penché plusieurs fois sur le cas Google et a notamment relevé le dysfonctionnement de certains opérateurs booléens1 et des calculs fantaisistes dans le nombre de pages répertoriées2 : si l’on ne peut même plus se fier à la logique mathématique, où va-t-on ? LE FANTASME DE LA TOTALITÉ Le rêve de Brin et Page, c’est de mettre la totalité de l’information mondiale à la disposition des utilisateurs. De prime abord, on peut être séduit par cette belle utopie altruiste, même si un psychanalyste trouverait sans doute suspecte cette quête totalitaire qui fleure bon le complexe de castration. Au-delà de ce fantasme, il faut tout de même souligner le fait que Google ne représente pas la totalité du Web et qu’en plus il nous cache certaines choses. Dans l’esprit de bon nombre d’utilisateurs, si on ne trouve pas une information sur Google, c’est qu’elle n’existe pas sur le Web. Bien évidemment, l’idée que Google aurait indexé tout le Web est totalement fausse. Premièrement, Google n’indexe pas ce que l’on nomme le Web invisible. Le Web invisible est constitué principalement de pages Web dynamiques qui sont créées à la volée, à la suite de la demande d’un internaute. Typiquement, il s’agit de pages créées à la suite de l’interrogation d’une base de données. À moins que vous n’ayez indiqué votre adresse postale sur une page Web, Google ne la connaît pas, mais il est cependant possible de la retrouver en interrogeant l’annuaire électronique si vous n’êtes pas inscrit en liste rouge. Voici un exemple de page Web que Google ne connaît pas, mais qui figure néanmoins sur le Web si on la recherche. Or de plus en plus d’informations sont répertoriées dans des bases de données et échappent ainsi au contrôle des moteurs de recherche. On peut notamment citer les grandes bases de données bibliographiques qui renferment des millions de références que Google est incapable d’indexer. Il en va de même pour tous les sites Web qui demandent une authentification, qu’ils soient gratuits ou payants. 1. http://aixtal.blogspot.com/2005/01/web-google-perd-la-boole.html 2. http://aixtal.blogspot.com/2005/02/web-le-mystre-des-pages-manquantesde. html