L’exploration et l’indexation sont deux exigences pour s’assurer que votre site web est répertorié dans les résultats de recherche.
C’est le Googlebot qui s’occupe de ça. Cependant, le bot ne possède qu’un budget limité pour l’exploration. Pour s’assurer qu’un site web est optimisé et indexé, le crawl budget doit être dépensé de manière optimale.
Le crawl budget, budget du crawl ou encore budget d’exploration est défini par Google comme la somme de la fréquence et de la demande d’exploration. Le budget lui-même se compose donc d’un nombre déterminé d’URL que le Googlebot veut et peut explorer. Gary Illyes, de Google, propose une définition plus précise du crawl budget dans son article bien connu intitulé "What the Crawl Budget Means for the Googlebot" ("Ce que le budget d’exploration veut dire pour le Googlebot"), publié le 16 janvier 2017 sur le Google Webmaster Central. Conseils et explications sont divulgués progressivement et l’un après l’autre.
1. Google trouve une URL, par exemple grâce à des liaisons internes, un sitemap.XML ou des liens détaillés.
2. Une liste est créée à partir de ces liens et les URL sont priorisées pour le crawl.
3. Enfin, le Googlebot obtient un soi-disant "budget de crawl" : il détermine la rapidité à laquelle les URL d’un site web peuvent être analysées.
4. Un programme appelé "planificateur" contrôle le Googlebot et permet aux URL d’être traitées en fonction de leur priorité et du budget d’analyse.
Tout ce processus se déroule en continu. Cela signifie que de plus en plus d’URL sont placées sur la liste alors que le Googlebot est dans le même temps en train d’explorer et d’indexer les URL. Le budget d’exploration est donc réajusté à tout moment.
C’est important que le Googlebot n’épuise pas la totalité du budget d’exploration. En plus de la fréquence du crawl, la demande du crawl joue également un rôle. Si Google ne donne pas la priorité à certaines URL, il pourrait ne pas les explorer, ce qui libère et dégage plus de ressources pour d’autres URL.
Avant que les sites web ne soient classés, ils doivent d’abord être explorés et indexés. Ils doivent donc recevoir une visite du Googlebot avant qu’ils n’apparaissent dans les résultats de recherche.
De cette façon, le webmaster doit s’assurer que les URL peuvent être trouvées et Google doit estimer que l’URL a suffisamment de valeur pour justifier une priorité élevée sur sa liste d’exploration. Il faut se rappeler que la priorité de Google est d’explorer moins fréquemment les sites qui reçoivent peu de visites et dont le contenu est faible et d’explorer plus souvent les sites web de haute qualité.
Néanmoins, il est important de noter que Google peut explorer en profondeur des sites possédant moins de 1 000 URL, indépendamment du crawl budget dont il dispose. Par conséquent, il est encore plus important pour les sites web possédant plus de 1 000 URL que tous leurs contenus et URL soient tenus à jour. En effet, même si Google permet le plus grand budget d’exploration possible, il se concentrera quand même sur les URL principales recevant le plus de trafic.
Le Googlebot est limité, entre autres, par la "limite du crawl rate" quand il analyse les URL. Le Googlebot définit lui-même cette limite. On considère qu’il ajuste la vitesse du crawl selon les réponses du serveur et les messages d’erreurs possibles dus à trop de requêtes simultanées ou rapides. L’étendue de cette limite dépend des deux facteurs suivants :
Exemple :
Google a décidé que le budget de crawl est de 10 connexions simultanées et de 3 secondes entre les requêtes. Dans ce cas, Google peut explorer 200 URL en une minute.
Changer les paramètres sur le Google Search Console : les webmasters peuvent contrôler la vitesse du crawl directement depuis le Google Search Console. Dans les paramètres du site web, il est possible de choisir un crawl plus lent ou plus rapide.
Illustration 1 : fixer la vitesse du crawl via Search Console
Il est important de ne pas choisir une fréquence du crawl trop élevée pour que le serveur ne se voit pas ralenti. Google ne précise pas combien de temps le Googlebot agit sur le site web.
Optimiser la vitesse du serveur : indépendamment des paramètres de Search Console, le webmaster doit s’assurer que le serveur répond rapidement. De cette façon, le crawl rate peut s’en voir considérablement amélioré. Google recommande de régler le délai de réponse à moins de 200 millisecondes. Ceci ne signifie cependant pas la "vitesse de la page". La vitesse du serveur dépend du temps de réaction du serveur et du nombre possible de connexions simultanées. Le temps de chargement du site dépend néanmoins de facteurs supplémentaires tels que le code source, les scripts et les fichiers CSS.
Vérifier les erreurs du serveur : dans Google Search Console, les erreurs de serveur au cours du crawl peuvent être vérifiées dans un rapport séparé (Exploration -> Erreurs d’exploration).
Illustration 2 : les erreurs du serveur peuvent être affichées via le Search Console depuis Google.
Le taux d’exploration d’un site web par le Googlebot est limité par des aspects technologiques. Mais même sans ces limites, le Googlebot peut explorer beaucoup moins de sites que ce que la limite le prévoit. La soi-disant "demande de crawl" ou “demande d’exploration” est responsable de ce fait. En bref, le Googlebot décide de si ça vaut la peine d’explorer un site web ou si le budget de crawl devrait plutôt être économisé.
Dans l’article de blog susmentionné au sujet du budget du crawl, Google indique que les sites les plus fréquentés sont le plus souvent explorés. La hiérarchisation des priorités joue également un rôle décisif : elle permet de savoir à quel point la demande d’exploration est élevée. Le planificateur classe les URL sur sa liste en fonction de la priorité. Voici quelques gradations possibles :
Vous pouvez obtenir un aperçu plus précis des demandes aux Googlebot dans l’évaluation des fichiers journaux du serveur.
Éviter les sites web abandonnés : les sites abandonnés sont des URL qui ne peuvent pas être atteintes sur le site web par le biais de ses liens internes. Ils sont aussi inutiles pour le Googlebot que pour les utilisateurs.
Lister les URL dans le sitemap.XML : un sitemap.XML permet aux webmasters d’insérer toutes les URL importantes d’un domaine dans Google Search Console. De cette façon, le Googlebot peut reconnaître quelles URL sont accessibles et peut les transmettre au planificateur.
Utiliser les fichiers robots.txt : à l’aide du fichier robots.txt, l’exploration de tous les sites web importants peut être facilitée pour le Googlebot. Les fichiers robots.txt permettent par exemple d’éviter les formulaires de contact pour l’exploration et l’indexation.
Vérifier le cache des sites : en utilisant Google Site Search, chaque URL d’un domaine peuvent être ouverte. En cliquant sur “cache”, vous pouvez vérifier quand le site a été enregistré pour la dernière fois dans l’index. Si le cache a été configuré il y a longtemps et que des contenus importants sur le site ont changé, l’URL peut aussi être envoyée manuellement à l’index via le Search Console.
Illustration 3 : envoyer des URL à l’index de Google
Vérifier la navigation à facette : une navigation à facettes peut générer d’innombrables URL grâce à des possibilités de filtrage. Ces "URL de filtrage" ont pour la plupart peu de valeur pour le Googlebot. Par conséquent, la navigation à facettes réduit fréquemment le crawl budget. Pour éviter cela, la structure de la navigation doit être vérifiée et définie aussi précisément que possible. Par exemple, les URL superflues peuvent être dotées d’une balise canonique qui pointe vers le site original. De même, il est possible d’insérer une metadonnée "noindex, nofollow" dans la zone
de l’URL inutile. En utilisant l’outil de paramètres de Google Search Console, il est aussi possible d’exclure de l’exploration et de l’indexation les paramètres de recherche des URL.Éviter les URL sans fin : ce type d’URL peut provenir des fonctions de recherche du site ainsi que des liens dits "supplémentaires" qui peuvent aussi se trouver sur le site. L’exclusion des résultats de recherche internes peut générer d’importantes économies dans le crawl budget.
Utiliser les sites aux erreurs 404 : pour éviter un crawl répété et sans fin de sites aux erreur Soft-404, les URL non disponibles devraient se voir attribuer le code de statut 404 (not found). De cette façon, vous pouvez empêcher le Googlebot d’accéder à ces URL et donc préserver votre budget de crawl.
Le Googlebot ne dispose que d’un temps limité pour explorer votre site. Vous pouvez améliorer le crawl en remédiant aux erreurs techniques. Dans le même temps, il est important que Google reconnaissance correctement une demande d’exploration, et c’est à ce moment-là que le budget de crawl devient un sujet central en termes d’optimisation du référencement. Après tout, c’est la qualité de votre site qui détermine la fréquence avec laquelle le Googlebot rend visite à votre site. Grâce à un contenu unique et de haute qualité, vous pouvez vous assurer que le budget d’exploration est utilisé de la manière la plus efficace possible.
Écrit le 03.04.2017 par Eva Wagner.
Eva rassemble beaucoup d'expérience dans le marketing. En 2015, elle devient un super-héros à Ryte. Avec beaucoup de créativité et un sens affiné pour les sujets d'actualité, elle gérait les activités de rédaction de Ryte. Elle organisait aussi la participation de l'entreprise à de grands événements et salons, comme la dmexco de Cologne.
Suivi, analyse et optimisation de vos actifs numériques grâce à notre technologie unique
S’inscrire gratuitement
Pingback: employment lawyers()
Pingback: employment solicitors()
Pingback: small business adviser()