Duplicate content


Le terme contenu en double ou duplicate content provient du domaine l'optimisation du référencement. Le duplicate content est créé lorsque des contenus identiques peuvent être ouverts avec des URL différentes et indexés avec des URL différentes. L'indexation de sites web composés de duplicate content peut avoir un effet négatif sur le classement dans les SERP.

Manifestations du duplicate content

Le duplicate content émerge si :

  • Les contenus sont regroupés, vendus ou copiés illégalement. Cela veut dire que différents sites web utilisent le même contenu. Dans ce cas, le duplicate content peut nuire à l'auteur.
  • Le contenu d’un site web est accidentellement affiché sur des domaines ou sous-domaines différents (ex : sans « www »).
  • Des contenus similaires sont utilisés dans différentes catégories. Cela peut se produire si le contenu d'une URL est publié dans une section "Actualités".
  • Le système de gestion de contenu ne peut pas assigner une URL unique au contenu.
  • Des filtres d’attribut différents donnent la même liste de produits au sein d’un online shop.

On parle de « near duplicate content » (contenu dupliqué proche) dans les cas où un contenu très similaire pourrait éventuellement mener à certains problèmes. Souvent, des blocs de textes copiés (comme des teasers ou des textes récurrents sur chaque page) peuvent être considérés comme du duplicate content par les moteurs de recherche.

Contexte

Google a apporté divers ajustements à ses algorithmes, ce qui signifie que le moteur de recherche peut très bien filtrer le duplicate content. Les mise à jour Brandy en 2004 et Bourbon en 2005 ont amélioré la capacité de Google à détecter le duplicate content.

600x400-DuplicateContent-fr-01.png

Conséquences du duplicate content

Le duplicate content pose un problème pour les moteurs de recherche. Vous devez décider laquelle des pages en double est la plus pertinente pour une requête de recherche. Google souligne que "le duplicate content sur un site web n'est pas une raison pour prendre des mesures contre ce site web". Cependant, le fournisseur du moteur de recherche se réserve le droit d'imposer des pénalités en cas d'intentions manipulatrices : "Dans les rares cas où nous devons supposer que des contenus dupliqués sont affichés dans le but de manipuler le classement ou de tromper nos utilisateurs, nous apportons les corrections appropriées à l'index et au classement des sites concernés."[1] Les webmasters ne doivent pas permettre à Google d'interpréter le contenu des contenus dupliqués, qu'ils aient été créés involontairement ou délibérément, et éviter généralement le duplicate content.

Causes techniques du contenu en double

Le duplicate content peut avoir des causes différentes, souvent dues à une configuration de serveur incorrecte.

Duplicate content dû à des sous-domaines catch-all/wildcards

Une des erreurs les plus basiques du SEO on-page peut survenir quand un domaine répond simultanément à tous les sous-domaines. Ce peut être facilement testé au moyen d’une simple visite :

"http://www.DOMAIN.com” followed by “http://DOMAIN.com” (sans “www”)

Si le même contenu est affiché dans les deux cas (et la barre d’adresse affiche toujours le domaine souhaité), il est recommandé de réagir rapidement. Dans le pire des cas, le serveur répond à tous les sous-domaines, y compris les sous-domaines tels que :

http://potatoe.DOMAIN.com/ 

Ces autres pages, composés des mêmes contenus, se voient référées en tant que doublons. Afin de faciliter la tâche des moteurs de recherche, on peut configurer son serveur correctement et indiquer quelle URL est la plus pertinente. On peut par exemple utiliser le module mod-rewrite (fonction du serveur Apache). Au moyen du fichier .htaccess dans le répertoire racine d’un site web, on peut utiliser le code de redirection 301 afin de s’assurer que le site web répond uniquement au domaine souhaité, et donc redirige automatiquement les sous-domaines vers le domaine exact :

 RewriteEngine On
# ! Please remember to replace “DOMAIN2 with the respective domain of your project !
RewriteCond %{HTTP_HOST} !^www.DOMAIN.com$ [NC]
RewriteRule (.*) http://www.DOMAIN.com/$1 [R=301,L] 

Dans un premier temps, on doit d’abord décider quel domaine doit être considéré comme le domaine principal, par exemple en utilisant « www » ou pas. Pour les sites web internationaux, une identification pays devrait aussi être considérée comme un sous-domaine.

 http://en.DOMAIN.com/  

Duplicate content dû à des slashes manquant

Une autre forme très répandue de duplicate content découle de l’usage des slashes (trailing slashes en anglais). Ce sont des URLs qui ne contiennent pas de nom de fichier mais qui indiquent plutôt un répertoire. Par exemple :

 http://www.DOMAIN.com/register_a/register_b/  

Normalement, ce lien devrait ouvrir le fichier index du sous-dossier « register_b ». En fonction de la configuration, l’URL suivante peut aussi répondre d’une manière semblable :

 http://www.DOMAIN.com/register_a/register_b 

Dans l’exemple ci-dessus, le dernier slash manque. Le serveur essaie tout d’abord de trouver le fichier « register _b », qui n’existe pas, mais il réalise ensuite qu’un tel dossier existe. Comme le serveur ne veut pas renvoyer un message d’erreur inutile, le fichier indexé de ce dossier sera affiché à la place. Dans le principe, c’est une bonne chose mais malheureusement cela résulte en un phénomène de duplicate content (qui se produit dès qu’un lien indique une mauvaise URL). Ce problème peut être traité de manières différentes :

  • 301 Redirects via .htaccess
  • Tag canonique qui indique la bonne URL
  • Blocage avec un robots.txt
  • Correction de tous les liens mal écrits (ce qui est difficile pour les liens entrants).

La meilleure façon de traiter de ce problème est d’utiliser un code de statut 301 via un fichier .htaccess, ainsi de corriger le lien défectueux. Cela épargne à Google des difficultés inutiles au cours du crawling, ce qui peut aussi se transformer en avantage pour le site web.

Maniement du duplicate content

La mission d’une optimisation on-page ne consiste pas seulement à éviter le duplicate content, mais aussi à l’identifier et à réagir de manière appropriée. Un détecteur de duplicate content peut vous aider à lister les URL qui affichent un contenu similaire. Il est particulièrement important, pour les webmasters comme pour les experts SEO, de réagir correctement dans un cas de duplicate content. L’indexation par les robots étant toujours plus rapide, les contenus identiques se retrouvent aussi plus vite sur la toile. Il en résulte un risque de mauvais classement ou même une exclusion précipitée de l’index.

Unicité du texte

Le duplicate content est souvent trouvé dans les boutiques en ligne qui utilisent des textes de produits des fabricants identiques et les utilisent également pour comparer les prix des portails. Matt Cutts a déjà fait une déclaration sur ce sujet. [2]. Par conséquent, une des premières actions à mener serait de créer des textes différents pour votre propre page d’accueil, ainsi que pour les comparaisons de prix pour les portails de shopping externes. Même si cela semble une tâche titanesque, créer des textes individualisés pour des pages différents paie en retour. Une des raisons principales est que la page en question, et par définition la marque, s’en trouve renforcée. De plus, la comparaison de prix reçoit simultanément des textes plus individualisés, et donc plus intéressants, à la fois pour Google et pour l’utilisateur.

Vol de contenu

Si le duplicate content résulte d’un « vol de contenu », le webmaster concerné doit être immédiatement contacté et demander soit d’inclure la source originale du texte, soit de complètement retirer le texte de la toile. Dans la plupart des cas, une simple demande suffit. Un avertissement peut aussi être formulé dans les cas extrêmes.

Redirection 301

Si un duplicate content externe surgit parce que le webmaster est en train de travailler sur deux sites web disposant du même contenu ou sur des domaines supplémentaires, un usage du 301 Redirect suffit souvent à empêcher le duplicate content.

Tags canoniques, noindex et robots.txt

Il existe plusieurs alternatives dans le maniement de contenu interne copié sur son propre site. Dans ce cas, les tags canoniques sont un important outil. Ils réfèrent la supbage qui est dupliquée à la page originale, et le contenu copié est automatiquement exclus de l’indexage. Si vous voulez vous assurer qu’une subpage contenant des textes reproduits n’est pas indexée, vous pouvez aussi utiliser le tag noindex. Afin d’exclure le duplicate content de tout crawling, il est aussi possible d’utiliser le robots.txt sur chaque subpage.

Balises hreflang pour pages traduites

Google peut maintenant très bien déterminer les pages traduites et assigner le contenu d'une page originale. Pour éviter le duplicate content en traduisant ou en utilisant les mêmes langues pour différents marchés cibles, vous pouvez utiliser la balise <hreflang> pour indiquer la région et la langue de chaque URL. Google reconnaît ainsi l'existence de traductions et d'orientations spécifiques d'une page et d'une URL.

Par exemple : une boutique en ligne française propose également ses produits en Suisse francophone et en Belgique. Dans ce cas, la langue cible est le français. Toutefois, le magasin utilise le pays correspondant se terminant par .be et.ch pour les pays cibles. Par exemple, pour éviter les doublons, vous pouvez définir <link rel="Alternate" hreflang="fr-ch" href="https://www.pageexemple.ch/" /> dans l'en-tête de la version française pour faire référence à une variante pour la Suisse.

rel=alternate dans les domaines mobiles

L'optimisation mobile peut également produire du duplicate content. Ceci est particulièrement vrai si le site web mobile a son propre sous-domaine. Le contenu dupliqué peut alors être évité avec la balise rel=alternate. La balise se réfère de la version de bureau à la version mobile. Les moteurs de recherche reconnaîtront alors que le domaine est le même et éviteront la double indexation.

Prévention

Afin de prévenir l’usage interne de duplicate content, il est recommandé de planifier correctement la hiérarchie des pages. Cela permet de détecter les sources possibles de duplicate content à l’avance. Lors de la création de produits pour un online shop, il est aussi conseillé d’opérer une préparation à l’intégration de tags canoniques, afin que cette dernière soit plus facile. Au niveau du texte, on peut se rappeler de cela : plus le texte est individualisé, mieux c’est pour Google et pour l’utilisateur. C’est simplement le meilleur moyen pour éviter le duplicate content.

Détecteur de duplicate content

Pour la première analyse, CopyScape ou Ryte mette à votre disposition ce que l'on appelle un détecteur de duplicate content. Ces outils identifient d'abord des contenus similaires voire identiques sur le web. Les boutiques en ligne en particulier, qui transmettent leurs données produits via des fichiers CSV aux portails de comparaison de prix ou aux plateformes de vente telles que Amazon, sont souvent affectées par ces problèmes.

Référence

Liens web