Crawl Budget

Le terme Crawl Budget (en français : budget d’exploration) désigne le nombre de pages maximal que Google explore sur un site web.

Définition

Google détermine lui-même le nombre de sous-pages qu’il explore pour chaque URL. Celui-ci n’est donc pas identique pour tous les sites et dépend principalement du PageRank d’un site, comme l’explique Matt Cutts^[1]. Plus le PageRank est élevé, plus le budget d’exploration est élevé. Le Crawl Budget détermine également la fréquence à laquelle les pages les plus importantes d’un site sont explorées et la périodicité des explorations en profondeur.

Différence avec le budget d’indexation

Il est important de différencier le terme "budget d’exploration" du budget d’indexation. Ce dernier établit le nombre d’URL qui peut être indexé. La différence devient significative lorsqu’un site contient un grand nombre de pages qui renvoient un code erreur 404. Chacune des pages consultées alourdit le budget d’exploration. Étant donné que celles-ci ne peuvent cependant pas être indexées en raison du message d’erreur, cela n’a cependant aucune influence sur le budget d’indexation.

Problématique

Le Crawl Budget entraîne une problématique pour les sites web plus volumineux qui possèdent de nombreuses pages. En règle générale, l’exploration ne porte pas sur l’ensemble des pages mais sur une partie de celles-ci. Par conséquent, toutes les pages ne peuvent pas être indexées. Cela signifie par ailleurs que l’exploitant du site passe à côté d’un trafic auquel il ne devrait pas renoncer si les pages concernées étaient indexées.

Importance pour l’optimisation du référencement

Sur cette base, un sous-domaine de l’optimisation pour les moteurs de recherche a vu le jour avec l’optimisation de l’exploration. Il s’agit de guider le Googlebot de manière à ce qu’il utilise le Crawl Budget disponible de la façon la plus adéquate possible et qu’il indexe les pages présentant la qualité la plus élevée et la plus grande importance pour l’exploitant du site web. En outre, les pages qui revêtent une importance secondaire doivent également être identifiées. On compte parmi celles-ci les pages présentant un contenu médiocre ou un contenu informatif moindre, ainsi que les pages erronées qui renvoient sur un code d’erreur 404. Ces pages sont exclues de l’exploration de manière à réserver le budget d’exploration aux sous-pages qui présentent une plus grande valeur. Ensuite, les sous-pages les plus importantes sont conçues de manière à pouvoir être explorées prioritairement par les robots d'indexation. Les mesures applicables dans le cadre de l’optimisation de l’exploration sont entre autres :

La réalisation d’une architecture de site web plate, grâce à laquelle le chemin d’accès aux sous‑pages est le plus court possible et ne nécessite que quelques clics.
L’insertion de liens internes vers des pages contenant de nombreux liens retour vers des pages qui doivent être explorées plus régulièrement.
L’insertion de nombreux liens internes vers les pages les plus importantes du site
L’exclusion des pages peu importantes du processus d’exploration à l’aide du fichier robots.txt (par ex. pages de connexion, formulaires de contact, images)
L’exclusion de l’exploration du site à l’aide des métadonnées (noindex, nofollow)
La proposition d’un sitemap au format XML contenant une liste des URL des sous-pages principales.

Si le portefeuille de pages explorées et indexées est amélioré à travers l’optimisation de l’exploration, il est également possible que le classement s’améliore. Les pages bénéficiant d’un meilleur classement sont explorées plus souvent, ce qui entraîne à son tour d’autres avantages.

Référence

↑ An Illustrated Guide to Matt Cutts' Comments on Crawling & Indexation, moz.com

Lien web

Le Budget Crawl défini par Google : 7 apprentissages, Ryte Magazine

[1] An Illustrated Guide to Matt Cutts' Comments on Crawling & Indexation, moz.com

[1]