On parle de duplicate content ou contenu dupliqué lors que des sites web présentent un contenu identique ou très similaire sur des URL différentes. De tels sites n’offrent aucune valeur ajoutée pour les moteurs de recherche ou les visiteurs.
Quelles sont les différentes causes des duplicatas et pourquoi il est important de différencier les différents types de duplicate content ? Découvrez nos meilleurs conseils pour éviter et même supprimer ce duplicate content.
Selon Google :
"Par contenu en double, on entend généralement des blocs de contenu importants, appartenant à un même domaine ou répartis sur plusieurs domaines, qui sont identiques ou sensiblement similaires. À l'origine, la plupart de ces contenus ne sont pas malveillants."
Source
Il s'agit donc du contenu qui peut être trouvé sur les différentes URL ou sur différents domaines.
Les causes les plus courantes de contenu en double sont les suivantes :
La discussion sur la pénalité pour le contenu en double fait souvent partie intégrante de la conversation sur le duplicate content. C'est une pénalité activée par Google si votre contenu est détecté sur plusieurs URL. Voici ce que dit John Mueller, analyste de Google Webmaster Trends, à ce sujet :
"Il n'y a aucune raison de pénaliser un site web pour avoir cela et certainement pas chez Google, il n'y a pas de duplicate content pénalisant quand il s'agit de votre propre contenu.
Source
Selon Google, le duplicate content sur le même domaine n'est donc pas une raison de pénaliser les utilisateurs. Cependant, vous gaspillez beaucoup de potentiel avec de tels duplicatas. Google essaie toujours de fournir le meilleur résultat de recherche possible pour chaque requête. Si le meilleur résultat est disponible sur différentes URL, l'algorithme de Google tente d'identifier la meilleure URL. Idéalement, ceci devrait être la page d'accueil. Cependant, l'algorithme peut aussi décider de choisir une URL totalement erronée.
Un grand nombre de duplicatas sur une page web conduit à une utilisation excessive des ressources d’exploration pendant que le moteur de recherche essaie de traiter ce duplicate content. Dans le pire des cas, cela pourrait retarder l'indexation du nouveau contenu. Vous devez donc mettre en place des mesures techniques pour essayer d'éviter au mieux les duplicatas sur votre site web.
D'autre part, le contenu dupliqué entre les domaines est évalué différemment par Google. Un moteur de recherche ne peut en effet pas savoir si le contenu a été dupliqué intentionnellement pour manipuler délibérément les résultats de recherche.
"Dans certains cas cependant, le contenu est délibérément dupliqué entre les domaines afin de manipuler le classement du site par les moteurs de recherche ou d'augmenter le trafic. Ce type de pratique trompeuse peut avoir des effets négatifs sur la navigation de l'internaute qui voit quasiment le même contenu se répéter dans un ensemble de résultats de recherche."
Source
Si Google détecte du contenu identique sur différents domaines, il essaie d'identifier la version originale et exclut les duplicatas des résultats de recherche :
Illustration 2 : Google cache les contenus dupliqués des résultats de recherche
Google menace alors d'imposer des sanctions sévères s'il soupçonne que les duplicatas inter-domaines ont été créés pour fausser délibérément les résultats de la recherche. Dans le pire des cas, cela pourrait signifier des mesures générales contre l'ensemble du domaine :
"… peut-être affiché dans le but de manipuler nos classements et de tromper nos utilisateurs, nous apportons également les ajustements appropriés dans l'indexation et le classement des sites impliqués. En conséquence, le classement du site peut être affecté, ou le site peut être retiré définitivement de l'index Google, auquel cas il ne s'affichera plus dans les résultats de recherche."
Source
Google fait une distinction entre les duplicatas internes et externes. Mais comment faire la différence entre les deux ?
Ryte Website Success vous permet d'identifier en un coup de main les duplicatas internes. Vous n'avez qu'à vous diriger dans "Contenu", "Contenu dupliqué" ou "Duplicata". Le rapport répertorie tous les duplicatas détectés sur le site Web ainsi que le nombre d'URL ayant le même contenu. En cliquant sur la loupe dans la colonne "Contenu dupliqué (compteur)", vous verrez tous les URL contenant du contenu dupliqué.
Illustration 3 : Identifier les duplicatas internes à l’aide de Ryte Website Success
Astuce : Website Success vous permet également de visualiser et d'exporter tous les duplicatas et URL concernés pour vous aider à déterminer les mesures appropriées pour tous les duplicatas. Cliquez simplement sur la roue de paramètre dans le tableau et choisissez l'option CSV Export pour extraire les données.
Vous devez vous poser trois questions importantes afin d'identifier les duplicatas externes :
1. QUI EST LE CRÉATEUR DU CONTENU ?
Tout d'abord, vous devez savoir d'où vient le contenu de votre site Web. Disposez-vous de votre propre équipe rédactionnelle ou avez-vous acheté le contenu ? Les descriptions de produits sur les boutiques en ligne sont par exemple souvent issues d'un flux de données automatisé et doivent être considérées comme des duplicatas potentiels. Dans ce cas, il est conseillé de créer votre propre texte pour vos produits les plus importants. Cependant, si votre inventaire est en constante évolution, il peut être conseillé d'exclure les pages de produits de l'index des moteurs de recherche et de créer des landing pages de catégories optimisées sur lesquelles les produits sont listés.
Illustration 4 : Copies exactes d’une description de produit dans de nombreuses boutiques en ligne
2. CE CONTENU EST-IL ÉGALEMENT UTILISÉ DANS D'AUTRES SECTIONS DU SITE ?
Les grandes entreprises ou les sociétés internationales commercialisent souvent leurs produits sur différents canaux et dans différents pays. Ils utilisent souvent les mêmes textes descriptifs et slogans à différents endroits du site Web afin de transmettre un message de marque cohérent.
Vous devriez donc examiner les différents secteurs de l'entreprise qui commercialisent le même produit. Si la même langue est utilisée pour différents pays, vous devez utiliser la balise hreflang. Par exemple, ceci peut être utilisé pour indiquer aux moteurs de recherche que le texte anglais est destiné à différents pays.
Illustration 5 : Contenu identique utilisé pour le marché de Microsoft Office 2016
3. EXISTE-T-IL D’AUTRES GROUPES OU PARTENAIRES QUI UTILISENT LE MÊME CONTENU ?
Avec une bonne communication interne, toute personne qui commercialise ses propres produits peut limiter le duplicate content sur ses domaines respectifs. Toutefois, cela devient difficile dans le cas des grandes entreprises : un certain nombre de boutique en ligne basé sur un CMS peut offrir tous les produits, y compris les descriptions des produits, via un flux de données. Le duplicate content peut être donc généré très facilement et ce juste par l’intégration des produits sur leur boutique en ligne.
La solution serait donc que les boutiques en ligne offrent un flux de données séparé pour ces compagnies. Au lieu d'un flux de données généré avec son propre CMS, il faudrait inclure des textes descriptifs individualisés. Alternativement, les partenaires peuvent aussi viser à utiliser une balise canonique inter-domaines ou à intégrer le tag noindex pour les pages web correspondantes.
Illustration 6 : le feed des produits sur une boutique en ligne sur ebay
Et que faire si le duplicate content surgit sur votre site web à votre insu ? http://www.copyscape.com/ est un outil très populaire utilisé pour identifier les sites Web qui utilisent votre contenu sans votre autorisation. Si vous n'êtes pas en mesure de contacter les exploitants de ces sites, vous devez demander leur suppression dans Google Search Console via le tableau de bord DMCA.
Illustration 7 : Le tableau de bord de suppression des contenus dans Google Search Console
Solution technique pour le duplicate content
Il existe différentes solutions techniques pour éviter gérer les duplicatas. Cependant, toutes ne sont pas adaptés pour résoudre le problème à sa source. Vous devez donc vous poser les questions suivantes :
Traitement rapide des doublons
Si vous avez déjà tout essayé en vous basant sur les questions susmentionnées, vous pouvez vous intéresser aux "solutions rapides". Mais gardez en tête qu’en particulier pour les contenus dupliqués à grande échelle, ces solutions peuvent rapidement engendrer de nouveaux problèmes.
Balise canonique : La balise canonique ou canonical tag est un moyen rapide d'éviter le duplicate content. Elle peut être intégrée à tout endroit que vous souhaitez, mais il est recommandé de ne pas l’utiliser pour des actions de grande envergure. En effet, avec la balise canonique, les moteurs de recherche doivent encore analyser les URL concernées et cela implique une utilisation accrue du budget d’exploration.
noindex : Cette balise meta robots empêche le contenu d'être indexé par Google. Tout comme avec la balise canonique, utilisez ce tag seulement sur des cas particuliers : votre budget d’exploration vous remerciera !
Robots.txt : L'utilisation du fichier robots.txt empêche les moteurs de recherche d'accéder aux duplicatas, mais vous empêchez également la transmission du link juice vers les URL correspondantes.
NoFollow : L'attribut NoFollow indique aux moteurs de recherche qu'ils ne doivent pas prendre en compte l'URL. Toutefois, cela n'empêche pas les moteurs de recherche de l'indexer puisque le contenu dupliqué peut également être lié depuis différents points, interne ou externe.
Techniquement, un site Web qui possède le même contenu dans la même langue mais dans différents pays est sujet au duplicate content. Ce peut être le cas des sites Web français qui sont utilisés en France, en Suisse et en Belgique.
Google vous permet de résoudre ce problème en utilisant l'attribut hreflang. Ce dernier renvoie l'URL affectée à toutes les versions linguistiques/pays. L'attribut hreflang est un outil très puissant, veillez à maîtriser son intégration. Voici quelques-unes des erreurs courantes que vous pouvez éviter :
N'hésitez pas à lire notre guide pratique du SEO international : on vous dit tout sur l'optimisation par les balises hreflang et les écueils à éviter !
Le logiciel Ryte explore votre site comme le ferait un robot d’exploration. Nous vérifions donc toujours l’utilisation des attributs hreflang. Sous "Paramètres de langues" -> "Langues", vous pouvez vérifier les langues qui sont référencées comme traduction pour un document Web. Et vous pouvez dans le même temps rapidement identifier quelles pages sont dénuées de toute traduction.
Illustration 8 : Vérifier le nombre de traduction en utilisant Ryte
Sous "Paramètres de langue” et "Codes de statut", intéressez-vous particulièrement aux codes de statut 3xx et 4xx. Essayez toujours d'éviter de référencer des pages inexistantes ou des pages redirigées. En cliquant sur le code de statut correspondant, vous obtenez un tableau avec les références correspondantes.
Illustration 9 : Vérifier les codes de statut avec Ryte
Le duplicate content est un sujet très large pour lequel il existe différentes solutions. Pour identifier la solution parfaite pour vous, il vous faut d’abord identifier la nature et le type des duplicatas. Le duplicate content externe peut notamment avoir de lourdes conséquences pour votre site.
Règles importantes :
✓ Si possible, utilisez uniquement des redirections permanentes 301
✓ Privilégiez une structure URL standard (ex : toutes les URL se terminent par un slash ou .html)
✓ Définissez un domaine standard
✓ Utilisez le tag hreflang pour les sites internationaux
✓ Dans le cas de collaborations ou partenariats, faites attention à la façon dont le contenu est utilisé et offrez différentes variantes.
✓ Évitez les blocs de texte récurrents
Dans la plupart des cas, la solution technique parfaite requiert souvent beaucoup de travail. Mais il faut se dire que très souvent, il s’agit de la solution la plus durable et modulable pour l’élimination des duplicatas.
Évitez le duplicate content avec Ryte FREE
Écrit le 01.03.2018 par Pauline Mitifiot.
Après des études d’histoire et de gestion de projet qui lui permirent de découvrir la Turquie, l’Italie et l’Allemagne, Pauline posa ses valises à Munich car elle ne pouvait plus se passer de son bretzel quotidien. Curieuse et dynamique, elle contribue à la section française du blog et du Wiki de Ryte.
Suivi, analyse et optimisation de vos actifs numériques grâce à notre technologie unique
S’inscrire gratuitement