Le contenu dupliqué est partout sur le web. Pas seulement en interne sur nos propres sites mais aussi repris frauduleusement par des webmasters ou des scripts peu scrupuleux mais aussi sur les réseaux sociaux, dans la presse et par des personnes bien intentionnées mais mal renseignées. Pour les outils de recherche, le but est d’afficher une seule fois la même information et donc d’identifier le contenu original afin de le rendre visible.

contenu dupliqué SEO

Avec 30% du contenu web qui est copié, le contenu dupliqué touche tous les sites web

Pour les outils de recherche dont le but est de parcourir le web afin de trouver de nouveaux contenus et d’identifier les contenus mis à jour, le contenu dupliqué est un problème.

Imaginons que vous soyez un robot et que vous avez aujourd’hui 100 pages à visiter sur un site web. Si au bout de quelques pages parcourues, vous vous rendez compte que c’est sensiblement le même contenu qui revient tout le temps, que faîtes-vous ? Vous bâclez certainement le boulot : « OK, ce sont quasiment toutes les mêmes pages, je passe vite dessus ». Et demain, puis après-demain, si vous retrouvez encore des contenus très similaires, vous vous direz que ce site ne mérite pas autant d’attention. Et si au final, vous vous rendez compte que le contenu est déjà présent ailleurs, vous vous direz peut-être même qu’il ne sert à rien de perdre son temps avec un site qui ne fait que recopier des contenus déjà présents ailleurs.

À l’inverse, si un site n’a que des contenus originaux, les robots auront envie de découvrir toujours plus de pages et de revenir plus souvent car chaque nouveau contenu est une opportunité de mieux satisfaire les internautes ayant des demandes précises (et de leur afficher de la pub au passage mais c’est un autre sujet).

Contenu dupliqué sur le web : volontaire ou pas ?

Le contenu dupliqué peut être réalisé de façon volontaire et souvent de façon automatisée. On est ici dans un logique Black Hat SEO dont l’objectif ici est de :

  • se faire passer pour l’auteur original pour récupérer son trafic. Il faut alors arriver à avoir suffisamment d’autorité et de passages de robots pour que le contenu volé apparaisse comme l’original.
  • modifier suffisamment le contenu pour que les moteurs n’y voient que du feu : en inversant les paragraphes, en changeant les temps et les pronoms, en synonymisant, en traduisant dans une autre langue puis en faisant l’opération inverse (français -> allemand -> français par exemple). On peut aussi aller plus loin en générant de la bouillie de texte à partir de corpus thématique et en mélangeant les résultats obtenus avec des résultats volés ailleurs sur le web.

La plupart des contenus dupliqués que rencontrent les moteurs de recherche sont des contenus dupliqués « pas faits exprès » et cela rend la tâche ardue : en effet, il y aurait entre 25 et 30% de contenus dupliqués sur le web.

Google ne pénalise pas le contenu dupliqué lorsqu’il n’a pas comme finalité de manipuler son algo et de récupérer des positions illégitime. Au pire, le contenu dupliqué sera filtré et Google affichera la version qu’il juge la plus légitime (avec le risque que ce ne soit pas le contenu que vous souhaitiez).

Les différentes sortes de contenus dupliqués

Contenus dupliqués externes

  • Liens entrants mal formés pointant vers des URLs n’existant pas
  • Mêmes contenus sur les places de marché via export de flux produits
  • Mêmes contenus réutilisés par des distributeurs / revendeurs / affiliés
  • Reprise des communiqués de presse tel quel
  • Récupération des contenus présents dans le flux RSS (surtout lorsqu’il n’est pas tronqué)
  • Vols de contenus
  • « Inspiration » de contenus avec beaucoup trop de similitudes
  • Site de préprod indexé
  • Contenus dupliqués sur des sous-domaines ou d’autres domaines appartenant à l’entreprise (autres pays / langue)

Contenus dupliqués internes techniques

Il s’agit de contenus dupliqués causés dans la plupart des cas par une mauvaise implémentation des préconisations des moteurs de recherche. Ce sont souvent des limitations techniques (le CMS ne le permet pas) :

  • Facettes en ecommerce sans interdiction de crawl sur les facettes à ne pas indexer
  • Paramètres dans les URLs (filtre, recherche…)
  • Identifiants de sessions dans les URLs
  • Différentes versions de la même page : page imprimable ou page accessible
  • Contenus accessibles via http / https / www / non www
  • Contenus accessibles via hébergeurs alternatifs (CDN) ou via IP

Contenus dupliqués internes liés non techniques

Par simplicité ou par rapidité et très souvent par ignorance, le même contenu est réutilisé.

  • Contenus repris ou textes à trous notamment sur les pages paginées et les pages de catégories
  • Balises Title ou meta description similaires ou de type texte à trou
  • Paramètres dans les liens (notamment paramètres de tracking UTM)
  • Remontée d’informations automatique (bloc de contenu sur la page d’accueil, dans un carrousel, top produit…)
  • Rédaction de contenus trop similaires
  • Même contenu en différents formats / présentation : article web + PDF + Powerpoint + vidéo avec transcription
  • Pages creuses en contenus (contenu dupliqué à cause des éléments communs à la page – en-tête, barres latérales, pied de page)
  • Reprise d’un même contenu car utile à l’internaute : mêmes textes sur les retours / assurances dans toutes les fiches d’un ecommerce par exemple
  • Reprise des contenus des fournisseurs : très fréquent pour les descriptions des produits en ecommerce

Bonnes pratiques face au contenu dupliqué.

À mettre en place en solution préventive (idéalement) et corrective (si trop tard) :

  • Rediriger les trailing slash (le / à la fin des URLs)
  • Rediriger les versions http/https
  • Rediriger les versions www / sans www
  • Avoir un sitemap.xml à jour
  • Rediriger via redirections 301
  • Bien faire attention en cas de doublonnage voulu (site AMP, site mobile…)
  • Ne pas laisser indexer les pages de résultats de recherche interne
  • Ne pas utiliser de paramètres dans les URLs (les ? et les &)
  • Bien faire attention avec les contenus multi-langues / multi-pays (href lang + rel=alternate) et les redirections automatiques
  • Bien faire attention avec les URLs canoniques
  • Toujours utiliser le même format d’URLs (et attention aux URLs relatives)
  • Tester via un crawler tiers ou un outil d’audit pour identifier les doublons (Xenu, aHrefs, SEMRush, ContentKing, OnCrawl, DeepCrawl, Screaming Frog…)
  • Surveiller les retours de la Google Search Console et éventuellement utiliser les outils GSC pour indiquer le domaine préféré et quoi faire avec les paramètres
  • Vérifier que les contenus achetés sont bien originaux (et l’écrire dans le contrat)
  • Défendre ses droits d’auteur (DMCA)
  • 1 contenu = 1 URL (attention notamment aux modules / widgets qui reprennent les mêmes contenus sur toutes les pages)