Exploré et indexé : c’est ce que souhaitent la plupart des webmasters pour leur site web. Pourtant, cet enchaînement cohérent requiert la maîtrise de plusieurs subtilités.
Dans le jeu des SERP, il n’y a rien de plus logique. Si le Googlebot ne peut pas indexer votre site Web, vos URL n'apparaîtront pas dans les résultats de recherche, ce qui signifie que les visiteurs ne pourront pas accéder à votre site via Google. S'assurer que votre site Web est indexable est donc un facteur important dans l'augmentation de son trafic et donc de sa performance globale.
Pour garantir l'indexation des pages de votre site, il est conseillé de faciliter au maximum l'exploration par le Googlebot. Dans cet article, nous aborderons plusieurs aspects visant à assurer la qualité de ce duo, de la création du sitemap XML au monitoring des pages indexées en passant par l’inventaire de vos pages 404 et orphelines. Facilitez le travail de Google lorsque ce dernier parcourt votre site et votre contenu n’en sera que plus indexable.
Tentative d’illustration : Internet est une grande carte et un domaine s’apparente à une maison. Les pages individuelles de ce domaine sont comparables aux pièces ou aux étages, tandis que le Googlebot peut être vu comme un visiteur. Par conséquent, la maison doit être facile à trouver et accessible. Plus la structure de votre site est de qualité, plus il est facile pour le visiteur de naviguer sur votre site et d'enregistrer les données pour une visite ultérieure. Suivre et enregistrer les URL est d’ailleurs l’une des tâches principales du Googlebot.
Lorsque le robot d’exploration de Google arrive sur votre site, il se dirige en tout premier lieu vers le fichier robots.txt. Ce dernier contient des instructions concernant les pages à explorer et il est directement stocké sur le site web (par exemple www.mypage.fr/robots.txt). Les instructions dans le fichier robots.txt sont là pour indiquer au crawler quelles pages doivent être parcourues et indexées.
Le plan du site XML ou sitemap XML est une liste de toutes les URL du site web. L'URL de ce sitemap doit être stockée dans le fichier robots.txt et vous pouvez la soumettre à Google Search Console afin que Google connaisse la structure de votre site web.
Pour rendre votre sitemap lisible et intelligible à la machine, il doit contenir les éléments suivants :
Illustration : Balises obligatoires à un sitemap XML
Le sitemap peut aussi contenir des balises supplémentaires.
L'utilisation de ces balises n'affecte pas le référencement de votre site mais elles aident simplement le Googlebot à parcourir efficacement votre site.
Voilà pour la théorie. Passons maintenant à la pratique et intéressons-nous à la création de ce sitemap.
Pour la plupart des sites web, créer ce fichier manuellement serait un processus très long. Il y a donc beaucoup d'outils qui font le travail pour vous, dont Google a dressé une liste ici.
Certains CMS possèdent également une fonction qui vous permet de créer un sitemap XML en un seul clic.
Lors de la création de votre sitemap, le plus important est de s’assurer qu'il peut être lu correctement par le Googlebot et qu’il ne contienne pas d’erreurs. En principe, un générateur de sitemap licite ou votre CMS générera un sitemap sans erreur, mais jeter un dernier coup d’oeil aux aspects suivant une fois votre fichier terminé ne serait pas de trop :
Illustration 2 : exemple d’un sitemap, contenant les champs obligatoires ainsi que des balises liées au SEO international
Vous connaissez maintenant les bases de la création d’un sitemap. Abordons ensuite les différentes formes de sitemaps.
En plus de lister les URL des sous-pages de votre site Web, un sitemap vous offre également la possibilité de lister les références à des vidéos, des images ou des actualités. Il est important de marquer les types de contenu à l'intérieur des balises.
Illustration 3 : Cas spéciaux et balises relatives
Si votre site compte beaucoup d'images, nous vous recommandons de créer un sitemap d'images. Il en va de même pour les vidéos. Un sitemap séparé pour les actualités n'est important que si vous souhaitez que votre site apparaisse dans Google Actualités. Pour être accepté dans ce programme de Google, un certain nombre de conditions doit être rempli.
Si vous voulez doter votre sitemap d’une grande quantité d’URL, il est conseillé de le diviser en plusieurs sitemaps plus petits. En règle générale, un sitemap doit être inférieur à 50 Mo et ne doit pas contenir plus de 50 000 URL.
En créant plusieurs sitemaps, assurez-vous de créer un fichier index sitemap que vous soumettez également à Googlebot. Par exemple, si vous disposez de 3 sitemaps, un tel fichier ressemblerait à :
Illustration 4 : Fichier index sitemap pour plusieurs sitemaps
Il est important dans ce cas d’indiquer le fichier principal à l’aide du aligncenter. En outre, vous devez spécifier, à l’aide de la balise
L'étape suivante consiste à intégrer votre sitemap à Console Google Search.
1. Tout d'abord, enregistrez vos sitemaps et fichier index sur votre serveur afin que les fichiers puissent être ouverts avec une URL fixe. Copiez cette URL.
2. Connectez-vous à Google Search Console.
3. Si vous n'avez jamais utilisé de sitemap auparavant, cliquez sur "Aucun sitemaps" dans le volet droit du tableau de bord.
4. Si vous voulez tester que votre sitemap ne comporte pas d’erreurs avant de l'envoyer, cliquez sur "Tester sitemap". Vous recevrez une évaluation du fichier avec des informations sur d'éventuelles erreurs, sans que le fichier ne soit encore transmis au Googlebot.
5. À ne pas oublier : sauvegardez l'URL du sitemap dans votre fichier robots.txt afin que le Googlebot puisse y accéder avant de parcourir votre site.
Il est important que votre sitemap soit toujours à jour. Par conséquent, n’oubliez pas de mettre à jour le fichier XML chaque fois que les URL changent ou lorsque de nouvelles URL sont ajoutées. Un sitemap donne à Google une vue d'ensemble de la structure de votre site, il indique quelles pages doivent être parcourues, ce qui rend le contenu de votre site plus facilement indexable.
Si vous montrez vos URL au Googlebot via votre sitemap, il est essentiel que le contenu des URL est toujours à jour et disponible. Si le robot d’exploration rencontre fréquemment des pages d'erreur 404, il se peut qu'il n'indexe plus vos sous-pages. Il y a aussi un risque que des pages dites orphelines ne soient pas trouvées par le bot et ne soient donc pas indexées.
Si un utilisateur clique sur une URL pour accéder à une page qui n'existe plus, votre serveur émettra un code de statut 404 (not found). C’est en premier lieu embêtant pour les visiteurs, mais cela signifie aussi que le Googlebot gaspille des ressources en essayant de parcourir ces pages. Le logiciel de Ryte est là pour vous aider à éliminer les erreurs 404 : dans le module Website Success, cliquez sur le rapport sur l’indexabilité puis sur "codes de statut" pour voir vos erreurs 404.
Illustration 5 : Trouver les erreurs 404 avec Ryte
Google Search Console vous offre également la possibilité d’identifier les erreurs 404 sous la rubrique "exploration".
Illustration 6 : trouver les erreurs 404 avec Google Search Console
Si le contenu de l'ancienne URL est accessible sur une nouvelle URL, vous pouvez facilement rediriger l'ancienne URL vers la nouvelle en utilisant un redirect 301. Théoriquement, vous agissez de la sorte lorsque vous redirigez vers un contenu similaire sur votre domaine. Si vous ne parvenez pas à rediriger les URL, créez une page d'erreur 404 qui donne la possibilité aux utilisateurs de poursuivre leur recherche sur votre site Web. Elle peut également leur des recommandations sur des sujets connexes. Découvrez plus d'informations sur l'importance de créer 404 pages d'erreur pour vos utilisateurs dans cet article.
Les pages orphelines peuvent interrompre l'exploration de votre site par le Googlebot parce que ces pages ne sont pas accessibles par des liens entrants et ne sont pas liées au reste de votre site au moyen de liens internes.
Pour identifier des pages orphelines, il est conseillé de dresser liste de toutes les URL de votre site et les comparer avec les URL qui ont été visitées. Les pages web qui n'ont pas été visitées peuvent donc être définies comme des pages orphelines. Ces dernières apparaissent notamment lorsqu’un lien interne est incorrect, ce qui doit être corrigé au plus vite. Si vous découvrez des pages orphelines dont le contenu est inexistant ou incorrect, n’attendez pas pour les supprimer.
Après avoir diagnostiqué les erreurs 404 et supprimer les pages orphelines, il est maintenant temps de mettre à jour votre sitemap XML, afin que seul le contenu sans erreur soit transmis au bot de Google.
Il est important de surveiller en permanence l'indexation de votre site Web afin que vous puissiez réagir promptement aux erreurs et éviter que votre site Web ne perde des classements ou en trafic.
Google Search Console est de nouveau là pour suivre l'état de vos pages indexées. Dans le menu à gauche, cliquez sur "Index Google" puis sur "État de l’indexation" pour avoir un aperçu de l'indexation de votre site Web par Google.
Illustration 7 : État de l’indexation par Google Search Console
Si vous constatez que le nombre de vos pages indexées diminue rapidement, et ce même si vous fournissez constamment du nouveau contenu, demandez-vous pourquoi. Comme Google ne garantit pas que les URL soumises via le sitemap seront indexées, jetez un oeil un oeil sur le ratio des pages soumises par rapport aux pages indexées. Si le nombre d'URL soumises est significativement plus élevé que le nombre d'URL réellement indexées, il peut y avoir des erreurs sur vos pages qui empêchent Google de les indexer.
Connectez-vous à Google Search Console et cliquez sur "sitemaps" dans la rubrique "Exploration". Ici, vous pouvez voir combien de vos pages soumises ont été réellement indexées.
Illustration 8 : Aperçu des pages indexées par rapport aux pages envoyées dans Google Search Console
Si vous constatez que le nombre de pages envoyées est significativement plus élevé que le nombre de pages indexées, les points suivants vous aideront dans la résolution de ce problème :
1. Vérifiez votre fichier robots txt. Les zones importantes du site Web sont-elles exclues dans les instructions ?
2. Vérifiez si vous utilisez correctement la balise noindex. Est-ce que vous excluez par erreur des sous-pages de votre site Web ?
3. Vérifiez l'utilisation correcte des étiquettes canoniques. Vos balises canoniques dirigent-elles vers les bonnes pages ? Utilisez-vous la même syntaxe ?
Le rapport sur l’indexation de Ryte vous procure également un aperçu de vos pages indexées, montrant par exemple combien sont bloquées par robots.txt. Dans le module Website Success, cliquez sur "URL indexables". La répartition est visible en un seul coup d’oeil grâce au graphique présenté. Si vous cliquez sur chacune des colonnes, vous obtenez une liste des URL relatives.
Illustration 9 : Rapport sur l’indexabilité dans Ryte
Vous pouvez également effectuer une recherche succincte dans Google pour voir si certaines pages de votre site se trouvent dans l'index. Utilisez la fonction “site:” en saisissant ce qui suit dans la barre de recherche : site:www.mywebsite.com/subpage. Si la page est indexée, elle apparaîtra dans les SERP dotée d’un snippet.
Il est important de vérifier régulièrement le statut d'indexation de votre site Web, notamment après avoir apporté des modifications ou ajouté de nouvelles URL. Indépendamment des changements majeurs que vous pourriez apporter, vous devriez créer un plan de surveillance de vos pages indexées en utilisant Google Search Console et des outils tels que Ryte.
Pour aider Google à parcourir et à indexer le contenu de votre site, rien de mieux que le sitemap, dont la création et la soumission ne devraient désormais plus avoir de secrets pour vous. En plus de cleanups réguliers pour détecter les pages 404 et les pages orphelines, un monitoring constant est nécessaire pour suivre et surveiller cette indexabilité tant souhaitée. Gardez à l'esprit que ces mesures ne donnent aucune garantie de bons classements : un bon contenu reste indispensable pour atteindre les meilleures positions. Cependant, si le contenu de votre site Web n'est pas indexable, les utilisateurs ne pourront même pas y avoir accès. S'assurer que le contenu de votre site Web est indexable crée donc la base d'un site Web qui réussit.
Checkez l'indexabilité de vos pages avec Ryte FREE
Écrit le 08.01.2018 par Pauline Mitifiot.
Après des études d’histoire et de gestion de projet qui lui permirent de découvrir la Turquie, l’Italie et l’Allemagne, Pauline posa ses valises à Munich car elle ne pouvait plus se passer de son bretzel quotidien. Curieuse et dynamique, elle contribue à la section française du blog et du Wiki de Ryte.
Suivi, analyse et optimisation de vos actifs numériques grâce à notre technologie unique
S’inscrire gratuitement