Vous voulez savoir comment fonctionne le plus grand moteur de recherche sur Internet ? Google a lancé vendredi (1) une page montrant les coulisses du moteur de recherche, comprenant des informations sur l’indexation de plus de 30 trillions de pages web, la lutte intense contre le spam et l’algorithme responsable de l’affichage des résultats les plus pertinents pour l’utilisateur, qui prend en compte plus de 200 caractéristiques.
Sur la page “Comment la recherche fonctionne”, vous pouvez découvrir, par exemple, que l’index des pages Google contient plus de 100 millions de gigaoctets, ou 100 pétaoctets. Il ne semble pas qu’un service ait besoin d’indexer des billions de pages, mais ces informations (ou la plupart d’entre elles) sont stockées dans la mémoire vive. C’est pourquoi l’algorithme peut rechercher dans l’ensemble de l’index et renvoyer les résultats en seulement un huitième de seconde.
Google a également tenu à mettre l’accent sur la lutte contre le spam. Un graphique mensuel montre qu’en juin 2011 seulement, plus de 100 000 mesures ont été prises manuellement pour retirer de l’index les sites envahis qui ont commencé à diffuser du spam. Ces actions sont gérées par une équipe manuelle de lutte contre le spam, qui se trouve dans plusieurs bureaux dans le monde entier ? il y a des professionnels en Inde, en Irlande, au Japon et en Chine.
Les gestionnaires de sites peuvent être intéressés par un document de 43 pages contenant les directives de Google en matière d’évaluation des recherches. Le texte ne compte pas la recette du gâteau, mais il donne une idée de la façon dont l’algorithme et les ingénieurs pensent au moment de trier les pages ? il y a plusieurs exceptions à considérer lorsque le sujet est un contenu dupliqué, et l’endroit où l’utilisateur effectue la recherche influence directement les résultats de la recherche.
Si vous ne lisez pas en anglais, il existe une version portugaise de la page “Comment fonctionne la recherche”, mais elle ne comporte pas l’infographie animée (ce qui est plutôt cool).