cette désaffection des chercheurs pour Google, mais il est tout simplement
possible que les recherches soient vouées à l’échec tant on manque
d’éléments pour analyser le phénomène scientifique. En France,
Jean Véronis, universitaire spécialiste de linguistique informatique,
s’est pourtant penché plusieurs fois sur le cas Google et a notamment
relevé le dysfonctionnement de certains opérateurs booléens1 et des
calculs fantaisistes dans le nombre de pages répertoriées2 : si l’on ne
peut même plus se fier à la logique mathématique, où va-t-on ?
LE FANTASME DE LA TOTALITÉ
Le rêve de Brin et Page, c’est de mettre la totalité de l’information
mondiale à la disposition des utilisateurs. De prime abord, on peut être
séduit par cette belle utopie altruiste, même si un psychanalyste trouverait
sans doute suspecte cette quête totalitaire qui fleure bon le
complexe de castration. Au-delà de ce fantasme, il faut tout de même
souligner le fait que Google ne représente pas la totalité du Web et
qu’en plus il nous cache certaines choses.
Dans l’esprit de bon nombre d’utilisateurs, si on ne trouve pas une
information sur Google, c’est qu’elle n’existe pas sur le Web. Bien évidemment,
l’idée que Google aurait indexé tout le Web est totalement
fausse. Premièrement, Google n’indexe pas ce que l’on nomme le Web
invisible. Le Web invisible est constitué principalement de pages Web
dynamiques qui sont créées à la volée, à la suite de la demande d’un
internaute. Typiquement, il s’agit de pages créées à la suite de l’interrogation
d’une base de données. À moins que vous n’ayez indiqué votre
adresse postale sur une page Web, Google ne la connaît pas, mais il est
cependant possible de la retrouver en interrogeant l’annuaire électronique
si vous n’êtes pas inscrit en liste rouge. Voici un exemple de page
Web que Google ne connaît pas, mais qui figure néanmoins sur le Web
si on la recherche. Or de plus en plus d’informations sont répertoriées
dans des bases de données et échappent ainsi au contrôle des moteurs
de recherche. On peut notamment citer les grandes bases de données
bibliographiques qui renferment des millions de références que Google
est incapable d’indexer. Il en va de même pour tous les sites Web qui
demandent une authentification, qu’ils soient gratuits ou payants.
1. http://aixtal.blogspot.com/2005/01/web-google-perd-la-boole.html
2. http://aixtal.blogspot.com/2005/02/web-le-mystre-des-pages-manquantesde.
html