Pourquoi le fichier robots.txt est-il si important ? Comment le surveiller efficacement ?
Découvrez ici tout ce que vous avez toujours voulu savoir sur le robots.txt et comment le logiciel Ryte vous offre les meilleurs rapports pour ne manquer aucun changement. La performance de votre site web en dépend !
Le fichier robots. txt est un simple fichier texte placé dans le répertoire racine du site Web et contient des instructions concernant les domaines qui devraient ou ne devraient pas être accessibles aux robots des moteurs de recherche. Le fichier utilise le Standard for Robot Exclusion, un protocole qui spécifie les options d'accès sur le site pour les différents types de robots. Le fichier robots. txt peut également fournir des informations sur les différents fichiers stockés dans un répertoire précis, mais aussi sur des répertoires entiers ou des domaines.
Des imprécisions dans ce fichier peuvent bloquer l'exploration de zones entières du site Web. Cela pourrait avoir un impact drastique sur vos activités si, par exemple, la page d'accueil de votre boutique en ligne a été bloquée accidentellement par le fichier robots.txt. Il est donc important de surveiller constamment votre fichier robots.txt et de vérifier son contenu.
Si le répertoire "Example_Directory" ne doit pas être parcouru par le crawler du moteur de recherche, la syntaxe suivante doit être utilisée dans le fichier robots. txt:
User-agent: *
Disallow: /Example_Directory/
Il existe de nombreux outils en ligne qui permettent de créer facilement un fichier robots.txt. Une fois créé, il est sauvegardé dans le répertoire racine du site web, d'où il est accessible par les robots du site :
par exemple, http://www.votre-domaine.com/robots.txt
À noter : Les fichiers ou répertoires qui sont exclus de la recherche par le fichier robots.txt peuvent tout de même être indexés par les moteurs de recherche. Une commande allow ou disallow dans le fichier robots.txt n'est pas une garantie que la page ne sera pas explorée et indexée, par exemple, si une URL exclue de l'exploration dans le fichier robots.txt est liée à partir d'une page externe. Cependant, ce qui suit apparaît souvent au lieu de la meta description, puisque le bot a reçu l’interdiction d’explorer :
La description de ce résultat n'est pas accessible à cause du fichier robots.txt de ce site. En savoir plus
Illustration 1 : Exemple de snippet d'une page bloquée par le fichier robots.txt mais toujours indexée
Le monitoring du fichier robots.txt dans le module Website Success de Ryte est idéal aussi bien pour les référenceurs professionnels que pour les opérateurs de petits sites web. Dans les grandes entreprises, des changements peuvent être apportés au fichier robots.txt à votre insu, tandis que pour les sites plus petits, le webmaster est en général le seul responsable des modifications. Dans les deux cas, il est important de toujours vérifier si le robots.txt est toujours accessible et si son contenu a changé.
La fonction de monitoring du robots.txt dans Ryte est plus que facile à utiliser. Trouvez le rapport dans Website Success, sous la section "Surveillance du robots.txt".
Illustration 2 : Surveillance robots.txt avec Ryte
Ryte ping votre fichier robots.txt toutes les heures afin de vérifier son accessibilité (code de statut 200) et de vérifier les changements dans son contenu. Ici, le temps de chargement du fichier est également pris en compte et les variations (p. ex., timeouts) sont enregistrées.
Les questions techniques et de contenu suivantes sont examinées au cours du monitoring :
Technique :
Contenu :
Le rapport dresse la liste de toutes les versions du fichier robots.txt qui ont été trouvées, y compris les erreurs de téléchargement et le temps de chargement moyen.
Illustration 3 : Temps de chargement moyen des différentes versions du robots.txt
La liste suivante contient plus de détails sur les différentes versions.
Illustration 4 : Toutes les versions du fichier robots.txt
Dans ce tableau, vous pouvez voir :
Le temps de chargement est également indiqué séparément pour les différentes versions.
Illustration 5 : Détails sur l'heure, les derniers changements et le temps de chargement
Pour voir de plus près une version, cliquez simplement sur la loupe à droite pour une vue détaillée.
Illustration 6 : Vue détaillée des différentes versions du fichier robots.txt
Cette fenêtre affiche l’état du fichier robots.txt dans son intégralité. Si les trois symboles des codes de statut, du type de document et du temps de chargement sont affichés en vert, la version est correcte et aucune action n'est nécessaire.
La surveillance du fichier robots.txt possède une fonction de notification unique qui avertit rapidement les webmasters des modifications apportées au fichier robots.txt. Si le fichier ne renvoie pas le code de statut 200, le propriétaire du projet en sera immédiatement informé par email.
Si des changements dans le contenu du fichier robots.txt sont détectés, ils seront aussi listés dans le rapport. Dans le cas de plus de 5 changements, un email similaire est envoyé, demandant au webmaster de vérifier le fichier robots.txt et de s’assurer que ces changements étaient intentionnels.
Conseil : Activez ou désactivez les notifications pour les différents projets dans les paramètres utilisateur sous "emails".
Illustration 7 : Réglage de la fonction de notification
Le monitoring du robots.txt permet de suivre le code de statut, l'accessibilité et le temps de chargement de ce fichier. La fonction de notification est là pour vous informer de toute anomalie, ce qui signifie que vous pouvez corriger les erreurs dès qu'elles apparaissent, et ce en évitant une perte de performance du site Web.
Convaincu ? N'attendez plus pour surveiller votre robots.txt avec Ryte FREE
Écrit le 06.03.2018 par Pauline Mitifiot.
Après des études d’histoire et de gestion de projet qui lui permirent de découvrir la Turquie, l’Italie et l’Allemagne, Pauline posa ses valises à Munich car elle ne pouvait plus se passer de son bretzel quotidien. Curieuse et dynamique, elle contribue à la section française du blog et du Wiki de Ryte.
Suivi, analyse et optimisation de vos actifs numériques grâce à notre technologie unique
S’inscrire gratuitement