“404 - page not found” : qui n’a jamais vu ça ? Tu es en train de rechercher une information en particulier et d’un coup, ce message apparaît.
Les pages d’erreurs produisent souvent des effets négatifs sur plusieurs plans : à côté de la frustration des utilisateurs, elles envoient aussi de mauvais signaux aux robots des moteurs de recherche. Cet article te montre comment tu peux rapidement identifier et traiter les pages 404, afin d’optimiser ton site web à la fois pour les moteurs de recherche et pour les utilisateurs.
Une des raisons les plus courantes qui cause l’inaccessibilité des pages est un retrait de l’URL par les gestionnaires de sites web. C’est souvent non-intentionné et les webmasters ne le remarquent en général pas. Les CMS sont aussi une cause courante des pages 404. Les CMS génèrent souvent une URL en se basant sur le titre de la page. Des changements ultérieurs dans le titre se traduisent en des changements dans l’URL correspondante. Une page 404 apparaîtra cependant si le CMS ne redirige pas vers la nouvelle URL alors qu’il a essayé d’ouvrir l’ancienne URL.
Les pages 404 surviennent aussi lors des relances de site web. Ici, une attention particulière est requise si de nouvelles structures d’URL sont implantées en plus du changement du contenu et de l’apparence du site web. Des pages d’erreur peuvent souvent résulter si, pour des raisons de ressources, aucune ou seulement une page importante renvoie vers la nouvelle URL. Dans la plupart des cas, les gestionnaires de site web oublient aussi de traiter les redirections déjà existantes. De plus, un précieux link juice est perdu quand des références externes renvoient vers des pages 404.
Les sites web possédant un grand nombre de pages 404 demandent plus de ressources pour le crawling et augmentent le risque que les moteurs de recherche ne soient pas en mesure d’accéder à un contenu important via la structure du lien. De plus, la mauvaise expérience utilisateur causée par de telles pages peut avoir des effets négatifs sur le site web.
Illustration 1 : le nombre de pages d’erreur excède le nombre d’URL dignes d’être indexées.
OnPage.org Zoom peut t’aider à facilement identifier les pages 404 qui se trouvent sur ton site web grâce au robot OnPage. Pour ce faire, dirige-toi simplement sur le module Zoom, sélectionne « Indexability » – « Status Codes » et clique sur les codes de statut 4xx.
Illustration 2 : identifie les pages 404 avec OnPage.org
Si tu veux en venir à l’origine du problème, tu as aussi besoin d’analyser les liens entrants vers les pages 404. Ce peut être facilement réalisé : va sur « Links » -> « Overview » > « Liste de tous les liens ».
Ensuite, tu dois utiliser deux filtres afin d’obtenir une liste contenant uniquement les liens internes 404. Clique sur « ajouter un nouveau filtre », sélectionne l’option « locale » et règle l’option sur « fichier local ».
Illustration 3 : ajoute des filtres pour voir des fichiers locaux.
Ce filtre liste tous les liens qui renvoient vers les pages internes.Tu dois simplement ajouter un nouveau filtre pour limiter les résultats uniquement pour les pages défectueuses. Clique sur « ajouter un nouveau filtre », puis « Status Code » et sélectionne l’opérateur « is » et « 404 ».
Illustration 4 : mise en place d’un filtre pour afficher toutes les pages 404
Une fois que tu as créé et appliqué les deux filtres, tu obtiens une liste de toutes les pages 404 internes et les liens entrants correspondants.
Illustration 5 : liste des tous les liens internes 404 et leurs liens entrants respectifs
Astuce : Si tu as connecté OnPage.org avec Google Analytics, le robot OnPage analysera aussi toutes les URL depuis Analytics. Cela augmente tes chances d’analyser toutes les pages 404 et te donne une vue d’ensemble claire quant au nombre de visiteurs qui ont visité les différentes URL au cours des trente derniers jours. Cela te permet de prioriser et de gérer les pages 404 en te basant sur le trafic qu’elles génèrent.
Le Google Search Console (anciennement le Google Webmaster Tools) te fournit de nombreuses informations au sujet de ton domaine. En cliquant sur « Crawl errors » (1) → « Not found » (2), une liste comprenant les URL qui n’ont pas pu être identifiées pendant le crawling s’ouvre. En cliquant sur une URL spécifique, tu obtiens encore plus d’information sur la page en question.
Illustration 6 : identifie les pages 404 avec le Google Search Console
Astuce : Jeter un oeil aux pages Soft 404 vaut le coup. Les pages Soft 404 sont des pages défectueuses ou des URL non-existantes qui renvoient toujours vers un code de statut « 200 OK » ou « 302 Found ».
Google Search Console liste toutes les pages 404 qui ont été détectées sur ton site web, par le passé comme aujourd’hui. En analysant les pages 404, tu dois donc commencer en vérifiant chaque donnée et en t’assurant que la page existe toujours ou pas.
Tu as d’abord besoin de configurer correctement ton serveur afin de gérer les pages 404 de ton site web. Pour ce faire, tu peux ajouter le code correspondant dans le fichier .htaccess. Il suffit d’ajouter le code suivant :
ErrorDocument 404/404.php
Remarque ici que tu ne dois pas utiliser le nom du domaine dans la ligne .htaccess. Les moteurs de recherche l’interprèteraient sinon comme une erreur Soft 404.
Une fois que tu as correctement analysé tes pages 404, tu peux ensuite décider de la façon de procéder pour chacune de ces pages.
Afin de toujours offrir aux utilisateurs des informations utiles, l’utilisation de redirections est recommandée dans le cas de pages 404 pour celles qui sont des pages thématiquement importantes ou similaires. Pour les liens internes, selon signifie aussi le transfert d’un link juice précieux.
Ici, tu peux remarquer que le pouvoir du lien est seulement transféré si tu utilises des redirections permanentes 301. En effet, une redirection temporaire 302 ne transmet pas le link juice, comme une page 404.
Bien que le transfert du link juice en utilisant une redirection semble une option tentante, il y a aussi des pages 404 qui devraient être marquées comme telles. Cela s’applique particulièrement aux pages dont le contenu a été retiré de manière définitive et pour lesquelles une redirection ne représente pas une option car il n’existe pas de pages similaires.
Dans de tels cas, les pages devraient être réglées pour renvoyer le fameux « 404 not found » ou alors le « 410 gone », afin d’informer l’utilisateur que le contenu recherché n’existe plus.
Dans le cas où tu aurais besoin de mettre en place une page 404, tu peux veiller à fournir des éléments informatifs de base sur la page.
Cela comprend notamment une notification que la page originale n’est plus disponible et qu’il existe une possibilité pour l’utilisateur de continuer à surfer sur le site, tout ça pour éviter de perdre des visiteurs. Idéalement, tu devrais intégrer une option pour les utilisateurs qui surfent sur des pages au contenu similaire, afin de faciliter leur recherche d’information. Dans le cas où tu ne possèdes pas de contenu similaire, tu peux toujours aider les utilisateurs en intégrant une fonction de recherche.
Illustration : une page d’erreur sans aucune navigation ou aide pour l’utilisateur
Techniquement, il est important que la page renvoie correctement vers un code de statut 404 ou 410, afin d’éviter les erreurs Soft 404.
Illustration 8 : exemple d’une page 404 bien intégrée, qui apporte des informations supplémentaires à l’utilisateur.
Les pages 404 devraient toujours être maintenues au minimum en raison de leurs effets négatifs pour les utilisateurs et les moteurs de recherche. Si tu disposes d’autres URL dont le contenu est plus ou moins similaire à celui de la page défectueuse, il est toujours recommandé d’utiliser une redirection permanente 301, afin de rediriger l’usager vers une page thématiquement pertinente.
Cependant, si tu possèdes des pages 404 car le contenu a été retiré ou supprimé volontairement et ce de manière définitive, la page défectueuse devrait renvoyer vers un code de statut 404 ou 410. Cela devrait aussi inclure des options de navigation et offrir des informations importantes à l’utilisateur, en plus de la notification expliquant pourquoi la page n’est plus disponible.
Écrit le 13.01.2017 par Stephan Walcher.
Stephan Walcher est un professionnel du SEO évoluant dans le secteur du marketing digital depuis 2007. Curieux et fort de son expertise, il a développé une solide expérience professionnelle au sein d’agences web et entreprises reconnues, comme Catbird Seat, 1&1 Mail & Media GbmH et en tant que directeur du management de produit chez Ryte. Tout en continuant à étendre son savoir-faire et ses connaissances, Stephan a dernièrement rejoint l’équipe de One Advertising AG en tant que responsable du département SEO Travel.
Suivi, analyse et optimisation de vos actifs numériques grâce à notre technologie unique
S’inscrire gratuitementTu veux plus de trafic SEO ?
Améliore gratuitement tes classements avec Ryte.
S’inscrire gratuitement