Un canonical tag ou balise canonique permet aux webmestres et aux professionnels SEO d’éviter la présence de duplicate content. Certains éléments doivent toutefois être pris en compte pour une utilisation efficace et dénuée d’erreurs.
Le présent guide vous présente les points importants concernant le canonical tag et les situations dans lesquelles cette balise peut être mise en place. Nous soulignons aussi des cas plus subtils où les erreurs les plus fréquentes peuvent survenir. Grâce à ce guide, le canonical tag n'aura plus de secrets pour vous.
En février 2009, Google s’est associé avec les moteurs de recherche de Microsoft et de Yahoo et prend en charge depuis lors les balises canoniques. Cette innovation a également été présentée comme une simplification pour les webmestres sur le blog de l’entreprise :
Ce format ici évoqué est en fait une indication méta qui peut être intégrée dans le code HTML ou dans l’en-tête HTTP. Dans le cas où deux pages identiques ont deux URL différentes, ce tag rel=canonical indique aux moteurs de recherche quelle est la page d’origine. De cette manière, le duplicata est ignoré et seule l’URL canonique est indexée.
En français, cet élément HTML peut être appelé "canonical tag" comme en anglais, mais aussi "URL canonique" ou tout simplement traduit par "balise canonique". Utilisées correctement, les balises canoniques évitent le contenu dupliqué et vous aident dans le cadre de l’optimisation du référencement.
En intégrant une URL canonique spécifique dans le code source sous forme de balise, vous aidez les moteurs de recherche lorsqu’ils accèdent à votre site. Cette balise leur indique qu’ils ne doivent pas indexer l’URL en cours d’exploration, mais l’URL référencée. Dans le cas où des liens renvoient déjà au duplicata, la force du lien est transférée à l’URL canonique à travers les balises canoniques. En présence de plusieurs URL semblables, vous évitez également que le Googlebot choisisse pour l’indexation une URL que vous ne favorisez pas forcément, par exemple une URL commençant par HTTP au lieu de HTTPS.
Vous pouvez indiquer une URL canonique de deux manières différentes. Vous pouvez intégrer la balise dans la zone <head> du document HTML ou dans l’en-tête HTTP. Dans la plupart des cas, l’intégration de la balise dans l’en-tête HTML est recommandée, étant donné qu’elle est très facile à mettre en place sur le plan technique. En outre, de nombreux systèmes de gestion de contenu offrent la possibilité de mettre en place des balises canoniques dans l’en-tête HTML à l’aide de plug-ins.
Veuillez cependant noter que, dans certains documents, les balises canoniques ne peuvent pas être intégrées en langage HTML. Les documents PDF ne sont par exemple pas rédigés en HTML et il est donc impossible d’y placer une balise canonique dans la partie <head> du document. Dans ce cas, il est donc obligatoire d’utiliser l’en-tête HTTP.
Exemple :
Supposons que votre site contienne deux URL différentes qui possèdent en fait presque exactement le même contenu. Il est possible que celles-ci se différencient uniquement par un menu ou un bouton. Des liens renvoient déjà à ces deux pages. Cependant, afin de ne pas laisser le choix à Google pour déterminer laquelle de ces deux URL doit être affichée dans les SERP, vous devez choisir une URL canonique.
Partons du principe que ces deux URL ressemblent à ceci :
1. http://monsite.fr/astucesseo
2. http://monsite.fr/astucesseo-actuelles
Nous décidons que la première URL doit devenir l’URL canonique. En pratique, vous devez sélectionner comme URL canonique la page la plus pertinente, la page possédant l’URL la plus courte ou l’URL comportant le plus de liens.
Vous intégrez maintenant la balise rel=canonical dans la section <head> du duplicata. Le résultat est le suivant :
<link rel="canonical" href=”http://monsite.fr/astucesseo">
Google et les autres moteurs de recherche « savent » désormais qu’il existe une version canonique de cette page, qui doit être prise en compte lors de l’indexation. Les liens contenus sur les deux URL sont alors comptabilisés pour l’URL canonique. Vous avez ainsi mis en place une sorte de "redirection faible", sans pour autant rediriger l’utilisateur.
Si votre ressource est un document PDF ou un autre type de document pris en charge par Google, la balise canonique doit être intégrée dans l’en-tête HTTP. Pour ce faire, vous devez avoir recours à une syntaxe différente.
Reprenons l’exemple ci-dessus, mais cette fois-ci le deuxième document est un support PDF :
1. http://monsite.fr/astucesseo
2. http://monsite.fr/astucesseo-actuelles.pdf
Dans l’en-tête HTTP du document PDF, on intègre alors la ligne de code suivante :
Link: <link http://monsite.fr/astucesseo >; rel=“canonical“
À l’heure actuelle, Google reconnait les balises canoniques dans les en-têtes http uniquement pour la recherche web.
En principe, il est conseillé que chaque site web fasse référence à lui-même à l’aide de canonical tags dès lors qu’il n’en existe aucun duplicata. Ainsi, il est par exemple possible d’empêcher les robots des moteurs de recherche d’enregistrer l’URL d’une campagne de marketing dans l’index. Google conseille également cette manière de procéder.
Les boutiques en ligne doivent très souvent faire face à des problèmes concernant les contenus dupliqués. Ces problèmes surviennent majoritairement lorsqu’un seul et même produit peut être consulté dans diverses catégories sous différentes URL.
Prenons par exemple une boutique en ligne spécialisée dans la vente de baskets. Le modèle en rouge est disponible pour les hommes et les femmes et apparaît également dans la catégorie "chaussures loisir". Ainsi, il existe quatre URL qui renvoient systématiquement au même contenu :
1. http://www.chaussures.fr/basket-rouge
2. http://www.chaussures.fr/homme/basket-rouge
3. http://www.chaussures.fr/femme/basket-rouge
4. http://www.chaussures.fr/chaussuresloisir/basket-rouge
Afin de répartir le link juice de manière optimale sur une URL tout en évitant les contenus dupliqués, il est conseillé de choisir la première URL comme URL canonique. Dans ce cas, vous intégrez les trois autres URL de l’URL canonique dans la zone <head> :
<link rel="canonical" href=”http://www.chaussures.fr/basket-rouge">
De nombreux systèmes de boutiques en ligne incluent déjà une automatisation des balises canoniques. En règle générale, la balise canonique est intégrée sur la page principale du produit en question.
Les boutiques en ligne, mais également les sites d’actualités ou les sites des grandes entreprises, proposent très souvent de convertir le contenu en version imprimable. Certains CMS peuvent créer cette version imprimable d’un simple clic. Lors de cette conversion, une nouvelle URL, qui dans le pire des cas peut être référencée dans l’index par les moteurs de recherche, est généralement créée. De cette manière, des contenus dupliqués, qui peuvent limiter l’utilisabilité, sont créés. Si un utilisateur consulte par exemple un fichier PDF indexé, il ne peut pas naviguer à l’intérieur de celui-ci ou ne peut plus revenir à votre site.
Dans ce cas, une balise canonique intégrée dans l’en-tête HTTP du document imprimable ou du PDF peut résoudre rapidement le problème. La balise fait référence à l’URL d’origine, qui est finalement indexée à son tour.
Astuce : lorsque vous effectuez une modification de la structure des URL de votre site web, il est conseillé de ne pas seulement vérifier les redirections, mais également les balises canoniques existantes. Cela est d’ailleurs également valable lors de la modification du protocole, par exemple en cas de passage du protocole HTTP au protocole HTTPS.
Une balise canonique peut également être utilisée pour faire référence à l’auteur d’un article ou à une contribution originale. Ainsi, il est par exemple possible qu’un contenu du magazine Ryte soit utilisé sur une autre page dans le cadre d’une republication. Afin que Google et les autres moteurs de recherche puissent faire référence à l’original, l’auteur de la republication met en place un lien canonique vers le magazine Ryte.
Dans ce cas, d’autres utilisateurs peuvent consulter l’article original à partir d’autres sites. Dans l’index des moteurs de recherche, seul l’article principal apparaît.
Si vous avez doté votre site web de la balise hreflang afin de signaler les versions nationales et en différentes langues aux moteurs de recherche, vous devez utiliser la balise rel=canonical. Chaque version linguistique fait ainsi référence à elle-même à travers le canonical tag.
Dans de nombreux cas, l’utilisation incorrecte des balises rel=canonical peut conduire à de véritables problèmes. Une balise canonique mal intégrée peut conduire à la suppression involontaire d’une URL de l’index Google et donc à son absence de classement.
C'est la raison pour laquelle vous devriez éviter les erreurs ci-dessous.
Facebook et Twitter peuvent lire et utiliser les tag rel=canonical. Lorsque vous partagez une URL qui fait référence à une autre URL à l’aide d’une balise canonique sur ces réseaux sociaux, les informations correspondantes à l’URL canonique sont consultées. Si le post contenant cette URL est reçoit des "j’aime", ces "j’aime" comptent pour l’URL canonique.
Si vous ne pouvez utiliser absolument aucune balise rel=canonical, vous avez toujours la possibilité de consigner uniquement des URL indexables qui distribuent un code de statut 200 OK dans un plan de site XML. Vous pouvez transmettre ce plan de site à Google via Google Search Console. De cette manière, vous vous assurez une petite chance que Google indexe uniquement les pages communiquées dans le plan du site. Cependant, il s’agit seulement d’une option disponible pour les sites nouvellement créés, étant donné que l’indexation des sites web existants se laisse difficilement influencer de cette manière. Dans le cas où aucune balise canonique ne peut vraiment être utilisée, il est recommandé de tenter d’indiquer aux moteurs de recherche l’URL la plus importante à l’aide des liens internes. Par exemple, dans le cas d’un article d’actualité et de la version imprimable de cet article, tous les liens internes doivent pointer vers l’article en lui-même et un seul lien doit rediriger vers la version imprimable. Cet article aborde par ailleurs la relation entre exploration et indexation, duo dans lequel le sitemap XML joue un grand rôle.
Si les URL de votre site web fonctionnent avec de nombreux paramètres ou variables et qu’il n’est pas toujours simple de travailler avec une balise canonique, vous pouvez également utiliser Search Console. Vous indiquez alors comment Google doit traiter les URL à l’aide de paramètres déterminés.
Dans son rapport sur l’indexabilité de votre site, le logiciel Ryte répertorie l’état de vos canonical tags et liste les pages cibles. Vous pouvez ainsi suivre et surveillez ces balises qui sont essentielles à une structure propre de votre site.
Illustration 1 : Rapport sur les canonical tags dans le module Website Success de Ryte
Le canonical tag est un outil puissant pour les spécialistes du référencement et les webmasters qui permet d’éviter le duplicate content et de mieux répartir le link juice. Même en l’absence de plug-ins, la mise en place de ces balises est également très simple sur le plan technique.
Dans cet article, nous avons souligné quelques pièges. Si le canonical tag n’est pas intégré correctement, le méta élément peut causer des dommages importants et exclure par exemple des sous-pages importantes du classement. En revanche, si vous prenez en compte les règles susmentionnées lors de la mise en place des balises rel=canonical, votre page peut grandement profiter des avantages offerts par celles-ci.
Ryte FREE monitore pour vous vos canonical tags
Écrit le 07.06.2017 par Pauline Mitifiot.
Après des études d’histoire et de gestion de projet qui lui permirent de découvrir la Turquie, l’Italie et l’Allemagne, Pauline posa ses valises à Munich car elle ne pouvait plus se passer de son bretzel quotidien. Curieuse et dynamique, elle contribue à la section française du blog et du Wiki de Ryte.
Suivi, analyse et optimisation de vos actifs numériques grâce à notre technologie unique
S’inscrire gratuitement