Googlebot


Le Googlebot est le robot d'exploration de Google qui collecte des documents sur Internet et les compile pour l’index Google et plus tard la recherche Google. Il collecte des documents à travers un processus automatisé qui fonctionne de la même manière qu’un navigateur. Le robot d’exploration envoie une requête et reçoit une réponse de la part d’un serveur.

Lorsque certains paramètres garantissent l’accès du Googlebot, ce dernier charge un site web particulier, accessible via une URL, et l’enregistre ensuite dans l’index de Google. De cette manière, le Googlebot explore la totalité d’Internet, à condition qu’il puisse accéder à des ressources dispersées : la puissance de calcul du Googlebot est répartie sur un vaste système de centres de calcul de manière à pouvoir explorer des milliers de sites simultanément.

Informations générales

La technologie des robots d’exploration de Google est essentiellement un algorithme qui fonctionne de manière autonome. Il se fonde sur le principe du WWW (World Wide Web). On peut se représenter Internet comme un immense réseau de sites, de nœuds, et de liens ou liens hypertextes.

Mathématiquement, il est possible de décrire ce concept sous forme de graphe : chaque nœud est accessible au moyen d’une adresse Internet, une URL. Les liens présents sur un site conduisent soit à d’autres sous-pages, soit à d’autres ressources possédant une autre URL ou un autre nom de domaine. Le robot d’exploration distingue ainsi les liens HREF – les liens internes – et les liens SRC – les ressources. La théorie des graphes décrit la manière dont un robot d’exploration peut explorer le plus rapidement et le plus efficacement possible la totalité des graphes.

Google travaille alors avec différentes techniques. D’une part, il utilise le multithreading, c’est à dire le traitement simultané de plusieurs processus d’exploration. D’autre part, Google travaille avec des robots d’exploration ciblés qui se concentrent sur des domaines limités sur le plan thématique, comme par exemple l’exploration d’Internet à l’aide de certains types de liens, de sites ou de contenus. Ainsi, il existe un robot Google destiné à l’exploration des images, un pour la publicité sur les moteurs de recherche et un pour les appareils mobiles.

Application pratique

Les webmasters et les exploitants de sites web disposent de différentes possibilités pour mettre les informations concernant leur site web à disposition du robot d’exploration ou, au contraire, de s’y opposer. Chaque robot d’exploration est ensuite caractérisé à travers l’appellation User Agent. Dans le cas du Googlebot, l’appellation qui apparaît dans les fichiers journaux du serveur est 'Googlebot', de l’adresse hôte 'googlebot.com'.

Dans le cas du moteur de recherche Bing, il s’agit du 'Bingbot', de l’adresse 'bing.com/bingbot.htm'. Les fichiers journaux indique aux webmasters qui envoie des demandes au serveur. Les webmasters peuvent bloquer certains robots d’exploration ou leur accorder l’accès à leur site. Cette opération peut être réalisée soit via le fichier robots.txt à l’aide de l’attribut Disallow: /, soit à l’aide de certaines spécifications meta dans un document HTML. Lorsqu’un webmaster souhaite que les informations de son site web soient prises en compte de manière limitée par le Google Bot, il peut y parvenir en ajoutant une balise meta sur le site. Cette balise meta peut par exemple être rédigée comme suit :

<meta name = "Googlebot" content = "nofollow" /> 

La fréquence à laquelle le Googlebot explore un site web peut également être définie. Cette opération a généralement lieu via la Google Search Console. Elle est particulièrement conseillée lorsque le robot d’exploration perturbe les performances du serveur ou que les sites sont actualisés régulièrement et doivent par conséquent être explorés régulièrement. Le nombre de pages d’un site qui sont explorées est quant à lui spécifié dans le budget d'exploration.

Importance pour le SEO

Dans le cadre de l’optimisation du référencement des sites web, il est particulièrement important de savoir comment fonctionne le Googlebot, non seulement en théorie, mais avant tout en pratique. Ainsi, il est conseillé d’ajouter une nouvelle URL au robot d’exploration ou de la seeder d’une autre manière – c’est-à-dire mettre une adresse à disposition du robot en tant qu’URL de départ. Étant donné que le robot d’exploration trouve également de nouveaux contenus et d’autres références à travers les renvois sur d’autres sites, un lien HREF situé sur une ressource déterminée peut garantir que le robot d’exploration reçoive une nouvelle URL.

Il suffit d’envoyer un ping dans le WWW. Tôt ou tard, le Googlebot passe sur l’adresse seedée. Par ailleurs, il est conseillé de mettre des plans du site à disposition du robot d’exploration. Ainsi, il reçoit des informations essentielles concernant la structure d’un site et sait immédiatement quelles URL il peut suivre ensuite. Cela est particulièrement judicieux lorsqu’un site Internet de grande envergure a fait l’objet d’une refonte. Étant donné que le Googlebot peut lire différents types de documents et non pas seulement des textes ou des images, il est nécessaire de garder l’évolution à l’esprit : Google s’efforce depuis quelques années à rendre possible la lecture des contenus Flash, des sites web dynamiques, du code JavaScript ainsi que du code Ajax. Ses efforts se sont déjà révélés relativement fructueux dans ces domaines. En effet, le Googlebot est déjà capable d’identifier certaines méthodes, comme par exemple les paramètres GET ou POST, et certaines parties des contenus Flash peuvent être lues.