Quand j’ai vu que Google avait introduit une section «Classic Papers» de Google Scholar, son outil de recherche pour les revues spécialisées, je ne pouvais pas m’empêcher de me caresser le menton avec professionnalisme. Qu’est-ce qui ferait d’un papier un classique, en particulier pour le géant de la recherche? Dans un article de blog présentant la fonctionnalité, Sean Henderson, ingénieur logiciel de Google, explique la raison d’être de l’entreprise. Alors que certains articles attirent temporairement l’attention sur une découverte ou une découverte nouvelle et surprenante, d’autres « ont résisté à l’épreuve du temps », comme le dit Henderson.  Comment mesurer cette longévité? Classic Papers sélectionne les articles publiés en 2006, dans un large éventail de disciplines, qui ont reçu le plus grand nombre de citations cette année. Devenir un classique, selon Google, c’est simplement avoir été le plus populaire au cours de la décennie au cours de laquelle Google a lui-même pris de l’importance.  Cela peut sembler être un reproche sans importance et pédant envers des personnes extérieures au monde universitaire. Les articles classiques de Scholar ouvrent une fenêtre sur la façon dont Google conçoit la connaissance – et ses effets sur cette théorie a sur les idées que les gens trouvent avec ses services.    La mission initiale de Google est « d’organiser les informations du monde et de les rendre universellement accessibles ». Cela semble assez simple, même si c’est un défi, compte tenu de la quantité d’informations disponibles et du nombre de personnes pouvant y accéder. Mais cette mission masque certaines questions. Qu’est-ce qui compte comme information? Par quels moyens est-il accessible et aux conditions de qui?   Les universaux se décomposent rapidement en contingences. Les ordinateurs sont nécessaires, pour un. Les informations hors ligne, dans les bibliothèques ou dans la tête des gens, doivent être numérisées ou enregistrées pour devenir «universellement» accessibles. Ensuite, les utilisateurs doivent payer pour les services de données à large bande ou mobiles nécessaires pour y accéder.   À un niveau inférieur, les recherches ordinaires révèlent la sélectivité de Google. Une requête sur «Zelda», par exemple, génère six pages de liens liés à la série de jeux vidéo Nintendo de The Legend of Zelda. Sur la septième page, une référence à Zelda Fitzgerald apparaît. Au huitième, un La pizzeria appelée Zelda à Chicago est reconnue, de même que le café de Zelda à Newport, dans le Rhode Island. Ajouter un terme à la requête, comme «romancier» ou «pizza», produit des résultats différents, tout comme la recherche à partir d’un lieu physique situé à Chicago ou à Newport. Cependant, les résultats par défaut de la société pour les recherches simples rappellent que l’organisation et l’accessibilité ont une signification particulière pour Google.   Cette vérité cachée commence avec PageRank, le premier et le plus important produit de Google. Nommé d’après le fondateur de Google, Larry Page, c’est la méthode par laquelle Google a vaincu presque tous ses prédécesseurs dans la recherche sur le Web. Pour ce faire, il a mesuré la réputation des sites Web et utilisé cette réputation pour améliorer ou réduire ses chances d’apparaître plus tôt dans les résultats de recherche.   Quand j’ai commencé à utiliser le Web en 1994, il y avait 2 738 noms d’hôtes uniques (par exemple, TheAtlantic.com) en ligne, selon Internet Live Stats. C’est assez peu qu’il soit encore logique de cataloguer le Web dans un répertoire, comme un annuaire. Ce qui est exactement ce que la grande entreprise Web fondée cette année a fait Il s’appelait Yahoo!   Mais au moment où Page et Sergey Brin ont lancé Google en 1998, le Web était déjà très vaste et regroupait plus de 2,4 millions d’hôtes uniques. Un répertoire de cette taille n’avait aucun sens. Les recherches de texte avaient déjà été commercialisées par Excite en 1993, et Infoseek et AltaVista sont apparus en 1995, ainsi que Hotbot en 1996. Ces moteurs, ainsi que d’autres, des premiers moteurs de recherche utilisaient une combinaison de placement payant et de correspondance de termes de requête avec le contenu de Web. pages pour produire des résultats.   Ces facteurs se sont révélés faciles à jouer. Si les requêtes correspondent aux mots et expressions des pages Web, les opérateurs peuvent simplement masquer les termes trompeurs afin d’augmenter leur classement. Page et Brin ont proposé un ajout. Parallèlement à l’analyse du contenu d’une page, son logiciel utiliserait son statut pour la faire monter ou descendre des résultats. L’algorithme PageRank est complexe, mais l’idée sous-jacente est simple: il traite un lien vers une page Web. comme une recommandation pour cette page. Plus une page contient de recommandations, plus elle devient importante pour Google. Et plus les pages qui pointent sur une page sont importantes, plus ses recommandations ont de la valeur. Finalement, cette importance calculée place une page plus haut ou plus bas dans les résultats de recherche.