Balise canonique

La balise canonique ou canonical tag est une indication dans le code source d’un site web. Elle renvoie à une ressource standard – un lien canonique – pour les sites web qui se composent à quelques détails près des mêmes contenus. Quand un lien canonique est correctement défini, cette source sera directement indiquée dans l’index du moteur de recherche. Les moteurs de recherche déprécient le duplicate content, car il ne contient pas plus de valeur pour le visiteur. Une reconnaissance de duplicate content peut être possible à l’aide d’un outil approprié (Duplicate Content Checker).

Dans quels cas utiliser une balise canonique

La balise canonique est toujours intégrée quand le contenu est réutilisé ou quand un lien URL unique n’est techniquement pas accessible :

La page d’accueil est atteignable via différentes URL (ex : www.domain.fr, domain.fr, www.domain.fr/index.html, etc.)
Les pages sont atteignables avec ou sans slashs (" / ") et avec des lettres majuscules et minuscules (Case sensitvity)
Le serveur prend soin de réécrire le lien URL quand il s’agit de l’ID, il autorise donc les changements de l’adresse du site.
Des identifiants (pour une session ou un filtre sur un produit) peuvent être utilisés sans affecter le contenu de la page.
Le contenu sera présenté sous des formes différentes (ex : une version PDF imprimable, etc.)
Il existe des variantes https de la page.
Les contenus peuvent être ouverts sur des pages externes supplémentaires.

Il est important que la balise canonique soit intégrée sur chaque sous-page, afin que chaque page puisse être ouverte indépendamment. Ce faisant, les erreurs ou les faux liens peuvent être corrigés et remplacés.

Deux façons d’utiliser un lien canonique

Il existe en principe deux possibilités d’utilisation d’un lien canonique. Dans les deux cas, Google conseille d’utiliser le format absolu d’une URL, soit l’ensemble de l’adresse internet.

La syntaxe de la première variante ressemble à comme suit :

<link rel=“canonical“href=“http://www.exemple.fr/pageexemple.htm">

L’élément du , avec son attribut canonique, sera placé endu code source et complètera la donnée meta d’un document. Il s’agit d’une page standard, mais l’élément n’est pas utilisé au sein de pages qui comportent des contenus identiques, des dernières n’étant pas traitées en tant que contenus originaux.

Considérons que nous ayons deux pages web:

http://www.exemple.fr/pageexemple.htm
http://www.exemple.fr/pageexemple/?session_id=xyz.htm

La première est la ressource standard. La seconde est une session, comme il est fréquent sur les boutiques en ligne, grâce à laquelle les données de l’utilisateur peuvent être enregistrées (par exemple les articles et produits qui se trouvent dans le panier d’achat). On intègre donc le canonical tag la sectionde la deuxième page. Il contient un avertissement sur la ressource standard et originale, qui est la première page. De cette façon, Google et les autres savent quelle page doit être priorisée et affichée dans l’index.

Quand les ressources standard se composent d’un document PDF ou d’un autre type de format reconnu par Google, le tag canonique doit être intégré dans l’en-tête de la page. Si la syntaxe est différente, son intégration exige des connaissances du protocole du transfert hypertext (HTTP) :

Link: <http://www.exemple.fr/pageexemple.pdf>; rel=“canonical“

Il n’y a pas de données dans un document, mais plutôt des recommandations qui répondent au protocole HTTP. Si une requête du client est transmise (par un navigateur ou un moteur de recherche), le serveur transmettra la réponse avec la page qui possède l'indication canonique. Parfois, il est nécessaire d’opérer à une nouvelle configuration du serveur.

Considérons que nous ayons ces deux pages web :

http://www.exemple.fr/pageexemple.htm
http://www.exemple.fr/pageexemple.pdf

Les deux pages doivent être des ressources standards. Il s’agit d’un format PDF, donc le tag canonique doit être intégré dans l’en-tête de la page. Comme il se renvoie à lui-même, Google suggère que le document PDF devrait directement faire office de ressource standard dans son indexation.

Contexte

Avec l’aide des balises canoniques, les webmasters peuvent indiquer aux moteurs de recherche quelles pages possèdent un contenu identique et quelles pages ils souhaitent référencer en tant que ressource originale. L’utilisation d’un tag canonique est la première chose à faire lors de problèmes liés au duplicate content. Les webmasters peuvent aussi travailler sur la popularité des liens de pages précises aux contenus identiques et mutualisent en même temps la réputation des pages qui possèdent une URL canonique.

Cas d'utilisation

Balises canoniques et pagination : dans le cadre de la pagination d'un site web avec les balises rel="next" et rel="prev", chaque page devrait être dôtée d'une balise canonique vers elle-même ou alors aucune balise canonique ne doit être utilisée. Une exception : quand il s'agit d'une page "view-all", la balise canonique peut renvoyer à toutes les pages paginées depuis cette page d'aperçu.
Balises canoniques et hreflang : quand un site web est exploité avec le hreflang, chaque URL devrait soit être dotée d'une balise canonique qui renvoie à elle-même, ou alors aucune balise canonique ne doit être utilisée. Si les deux balises (hreflang et canonique) sont utilisées en même temps, Google obtient des signaux contradictoires. Tandis que la balise hreflang indique qu'il existe d'autres versions linguistiques de la page, la balise canonique indique que cette version est l'URL originale.

Balises canoniques et noindex : avec la balise noindex, les webmasters peuvent indiquer à Google que l'URL ne doit pas être indexée. Si une balise canonique est fixée sur cette page, Google obtient un signal confus. En effet, le moteur de choisir doit choisir une page comme canonique mais sans l'indexer. Les webmasters doivent ainsi se décider s'ils souhaitent plutôt utiliser la balise noindex ou la version canonique.

Quelles sont les erreurs fréquentes

Toujours est-il que la balise canonique est un outil puissant et que les pages web peuvent être totalement ignorées de Google si elle est mal intégrée. Le webmaster doit au préalable se demander s’il s’agit vraiment d’un contenu identique ou alors très similaire. Après, et seulement après, les balises canoniques sont judicieuses.

Les erreurs fréquentes sont :

Les balises canoniques ne sont pas judicieuses pour des pages numérotées ou décrites avec rel=next, rel=prev, car il ne s’agit pas à proprement parlé de contenus identiques.
Les sites web choisis doivent être en outre atteignables : il faut éviter les erreurs 404.
La combinaison entre les tags "noindex", "disallow" ou "nofollow" et les liens canoniques n’est explicitement pas souhaitée par Google.
Le canonical tag se compose techniquement d’un document qui ne peut pas disparaître, et il ne doit pas être utilisé plusieurs fois dans les meta tags.
Un autre chemin d'accès est défini comme la cible du lien. Il est de cette manière possible que Google interprète mal cette donnée et que la balise perde de sa valeur. C'est la raison pour laquelle le lien de la balise canonique doit toujours être une URL complète.
La syntaxe n'est pas correcte. Il y a une différence si la balise canonique renvoie à https://page.fr/ ou https://page.fr. Ainsi, il faut faire attention à tous les caractères dans l'intégration de la balise canonique. Il en vaut de même pour le protocole. La balise canonique ne doit par exemple pas renvoyer du protocole HTTPS au protocole HTTP.
La balise canonique renvoie à la page d'accueil du domaine. Dans ce cas, ce sera seulement la page d'accueil qui sera considérée comme une URL canonique. Il peut se produire par la suite que Google n'indexe que cette page pour tout le site.
La balise canonique, fixée sur une page paginée, renvoie à la première page. La balise est ici mal intégrée, car elle montre qu'il existe une page en double. Dans une pagination, les contenus de la page et les URL ne sont pas les même. Google obtiendra seulement l'information que la page paginée correspondante est seulement une suite de la page de la même catégorie.

Alternatives

Avec Google Search Console, les webmasters peuvent décider comment Google doit traiter les paramètres d'un site web. De cette façon, le Googlebot peut ainsi être orienté et incité à ignorer certaines URL d'un site web.

Liens web

Les monstres de l’optimisation : le monstre de la balise canonique, fr.ryte.com/magazine, ouvert le 06.09.2017
Guide pratique : les balises canoniques, fr.ryte.com/magazine, ouvert le 06.09.2017
SEO : top 12 des erreurs de duplicate content interne à éviter !, webrankinfo.com, publié le 22.07.2016