Noindex
L’utilisation du « noindex » dans les meta tags indique au robot du moteur de recherche que la page visitée ne doit pas être indexée. Le "noindex" permet aux webmasters d’influencer activement l’indexation de leurs pages : ils indiquent ainsi aux moteurs de recherche quelles URL doivent être indexées et lesquelles non. La balise noindex peut être complétée par l'attribut "follow" ou "nofollow".
Mise en place
La balise meta noindex est intégrée dans le code source d’un site web ou d'une sous-page, dans le champ(en-tête), et ajouté aux autres metadonnées.
Le tag complet a cette apparence :
<meta name="robots" content="noindex" />
Le contenu de la page sera en conséquence non-indexé par le robot et ne sera pas accessible par les SERP.
Afin de vérifier si la balise meta est lue et suivie, chaque webmaster peut mener une analyse de la page en question. Si le tag est correctement intégré, le résultat de la recherche sera négatif, car cette balise a interdit l'indexation au robot d'exploration.
Domaines d’application
Le noindex peut être employé afin d’indiquer aux moteurs de recherche que la page d’un domaine d’un site web doit être exclue de l’indexation. Cela peut être important dans les cas suivants :
- Pages de résultats de recherche interne
- Double catégorie de page
- Contenu protégé par les droits d’auteurs
- pages paginées
De telles pages non indexées peuvent cependant être trouvée dans le Deep Web.
Le noindex vs. disallow
Dans de nombreux cas, les webmasters ne sont pas conscients de la différence entre la fonction "disallow" (interdiction) dans le fichier robots.txt et le meta tag « "noindex". De manière générale, il n’est pas conseillé d’utiliser simultanément les deux méthodes, car le robot est stoppé par la page qui possède la commande "disallow" dans le fichier robots.txt. Il en résulte que le robot d’indexation ne reconnaît pas la balise noindex et que la page sera par la suite incluse dans l’indexation. En conséquence, un webmaster se tromperait s’il pense qu’utiliser cette méthode lui permet de n’être ni recherché ni indexé.
Le meta tag noindex existe uniquement pour empêcher les moteurs de recherche d’indexer une page. Si la page dans son intégrité ne doit pas être recherchée, il est alors recommandé d’utiliser le robot.txt.
disallow
- Contenus qui ne doivent pas être recherchés du tout
- Pour les contenus sensibles, tels que les pages de connexion ou d’ouverture de session
- Pour les volumes de données massifs, tels que des banques de données d’images spécifiques
- L’indexation de certaines pages est possible
noindex
- Contenus qui peuvent être recherchés mais non-indexés
- Pour les pages internes des résultats de recherche
- Non inclus dans l’indexation
Cas spécial noindex,follow
Quiconque veut qu’un robot exclut une page secondaire d’un domaine de l’indexation, mais que son lien soit quand même suivi, peut utiliser le meta tag "noindex" suivi de la balise "follow". Dans la pratique, cela peut être illustré comme suit :
<meta name="robots" content="noindex,follow" />
Cette option peut par exemple être utilisée pour une catégorie qui a plusieurs pages. Le robot d'exploration réfère le lien des sous-pages mais indexe uniquement la première page de la catégorie[1].
Il existe en outre la possibilité de combiner la balise noindex avec la pagination rel="prev" und rel="next".
Il est par ailleurs important que la balise noindex ne soit pas combinée avec une balise canonique. Dans ce cas-là, le moteur de recherche reçoit l'information qu'il existe deux pages identiques et qu'une des deux est l'orginale. Avec la balise noindex, cette page ne sera cependant pas indexée.
noindex,nofollow
Dans le cas où on ne souhaite pas que le robot d'exploration, comme le Googlebot, indexe une page et n'en suive pas les liens, la balise noindex,nofollow doit être intégrée dans la section d'en-tête.
<meta name="robots" content="noindex,nofollow" />
Dans la pratique, cette combinaison est rarement utilisée peut entraver l'exploration d'une page web.
Importance pour le référencement
En respectant le référencement, le meta tag "noindex" protège d’une manière élégante le duplicate content. Si on regarde la façon dont Google et les autres moteurs de recherche peuvent pénaliser des pages qui contiennent des parties copiées, être capable d’influencer l’indexation des pages peut être un facteur très important. En ajoutant "follow" dans le tag, cela laisse l’option de quand même faire suivre son lien dans les pages non-indexées.
Beaucoup de systèmes de gestion de contenus (CMS) créent automatiquement une grande variété de pages d’archives qui peuvent rapidement être intégrées dans l’indexation. Dans les cas extrêmes, de telles méthodes d’immersion dans l’indexation (flooding of indices) peuvent être considérées comme des spams. Le "noindex" peut donc être utilisé pour éviter de tels risques.
Le noindex est aussi pratique dans le cadre de la relance d’une page ou quand une nouvelle version d’une page est chargée. Tout cela implique que le projet peut tester la fonctionnalité d’une nouvelle page en direct, sans encourir le risque que certains domaines soient tout de suite indexés par un moteur de recherche. Il est par ailleurs important que cette balise soit retirée du code source après la relance pour que le Googlebot et autres robots d'exploration puissent indexer la page. Ensuite seulement, les URL indexés se trouveront dans le classement.
Référence
- ↑ Bloquer l'indexation de la recherche avec l'instruction "noindex", support.google.com, ouvert le 11.09.2017
Lien web
- Noindex, nofollow et robots.txt, attention aux erreurs !, blog.axe-net.fr, ouvert le 11.09.2017