Le contenu dupliqué est partout sur le web. Pas seulement en interne sur nos propres sites mais aussi repris frauduleusement par des webmasters ou des scripts peu scrupuleux mais aussi sur les réseaux sociaux, dans la presse et par des personnes bien intentionnées mais mal renseignées. Pour les outils de recherche, le but est d’afficher une seule fois la même information et donc d’identifier le contenu original afin de le rendre visible.

Avec 30% du contenu web qui est copié, le contenu dupliqué touche tous les sites web

Pour les outils de recherche dont le but est de parcourir le web afin de trouver de nouveaux contenus et d’identifier les contenus mis à jour, le contenu dupliqué est un problème.

Imaginons que vous soyez un robot et que vous avez aujourd’hui 100 pages à visiter sur un site web. Si au bout de quelques pages parcourues, vous vous rendez compte que c’est sensiblement le même contenu qui revient tout le temps, que faîtes-vous ? Vous bâclez certainement le boulot : « OK, ce sont quasiment toutes les mêmes pages, je passe vite dessus ». Et demain, puis après-demain, si vous retrouvez encore des contenus très similaires, vous vous direz que ce site ne mérite pas autant d’attention. Et si au final, vous vous rendez compte que le contenu est déjà présent ailleurs, vous vous direz peut-être même qu’il ne sert à rien de perdre son temps avec un site qui ne fait que recopier des contenus déjà présents ailleurs.

À l’inverse, si un site n’a que des contenus originaux, les robots auront envie de découvrir toujours plus de pages et de revenir plus souvent car chaque nouveau contenu est une opportunité de mieux satisfaire les internautes ayant des demandes précises (et de leur afficher de la pub au passage mais c’est un autre sujet).

Contenu dupliqué sur le web : volontaire ou pas ?

Le contenu dupliqué peut être réalisé de façon volontaire et souvent de façon automatisée. On est ici dans un logique Black Hat SEO dont l’objectif ici est de :

se faire passer pour l’auteur original pour récupérer son trafic. Il faut alors arriver à avoir suffisamment d’autorité et de passages de robots pour que le contenu volé apparaisse comme l’original.
modifier suffisamment le contenu pour que les moteurs n’y voient que du feu : en inversant les paragraphes, en changeant les temps et les pronoms, en synonymisant, en traduisant dans une autre langue puis en faisant l’opération inverse (français -> allemand -> français par exemple). On peut aussi aller plus loin en générant de la bouillie de texte à partir de corpus thématique et en mélangeant les résultats obtenus avec des résultats volés ailleurs sur le web.

La plupart des contenus dupliqués que rencontrent les moteurs de recherche sont des contenus dupliqués « pas faits exprès » et cela rend la tâche ardue : en effet, il y aurait entre 25 et 30% de contenus dupliqués sur le web.

Google ne pénalise pas le contenu dupliqué lorsqu’il n’a pas comme finalité de manipuler son algo et de récupérer des positions illégitime. Au pire, le contenu dupliqué sera filtré et Google affichera la version qu’il juge la plus légitime (avec le risque que ce ne soit pas le contenu que vous souhaitiez).

Les différentes sortes de contenus dupliqués

Contenus dupliqués externes

Liens entrants mal formés pointant vers des URLs n’existant pas
Mêmes contenus sur les places de marché via export de flux produits
Mêmes contenus réutilisés par des distributeurs / revendeurs / affiliés
Reprise des communiqués de presse tel quel
Récupération des contenus présents dans le flux RSS (surtout lorsqu’il n’est pas tronqué)
Vols de contenus
« Inspiration » de contenus avec beaucoup trop de similitudes
Site de préprod indexé
Contenus dupliqués sur des sous-domaines ou d’autres domaines appartenant à l’entreprise (autres pays / langue)

Contenus dupliqués internes techniques

Il s’agit de contenus dupliqués causés dans la plupart des cas par une mauvaise implémentation des préconisations des moteurs de recherche. Ce sont souvent des limitations techniques (le CMS ne le permet pas) :

Facettes en ecommerce sans interdiction de crawl sur les facettes à ne pas indexer
Paramètres dans les URLs (filtre, recherche…)
Identifiants de sessions dans les URLs
Différentes versions de la même page : page imprimable ou page accessible
Contenus accessibles via http / https / www / non www
Contenus accessibles via hébergeurs alternatifs (CDN) ou via IP

Contenus dupliqués internes liés non techniques

Par simplicité ou par rapidité et très souvent par ignorance, le même contenu est réutilisé.

Contenus repris ou textes à trous notamment sur les pages paginées et les pages de catégories
Balises Title ou meta description similaires ou de type texte à trou
Paramètres dans les liens (notamment paramètres de tracking UTM)
Remontée d’informations automatique (bloc de contenu sur la page d’accueil, dans un carrousel, top produit…)
Rédaction de contenus trop similaires
Même contenu en différents formats / présentation : article web + PDF + Powerpoint + vidéo avec transcription
Pages creuses en contenus (contenu dupliqué à cause des éléments communs à la page – en-tête, barres latérales, pied de page)
Reprise d’un même contenu car utile à l’internaute : mêmes textes sur les retours / assurances dans toutes les fiches d’un ecommerce par exemple
Reprise des contenus des fournisseurs : très fréquent pour les descriptions des produits en ecommerce

Bonnes pratiques face au contenu dupliqué.

À mettre en place en solution préventive (idéalement) et corrective (si trop tard) :

Rediriger les trailing slash (le / à la fin des URLs)
Rediriger les versions http/https
Rediriger les versions www / sans www
Avoir un sitemap.xml à jour
Rediriger via redirections 301
Bien faire attention en cas de doublonnage voulu (site AMP, site mobile…)
Ne pas laisser indexer les pages de résultats de recherche interne
Ne pas utiliser de paramètres dans les URLs (les ? et les &)
Bien faire attention avec les contenus multi-langues / multi-pays (href lang + rel=alternate) et les redirections automatiques
Bien faire attention avec les URLs canoniques
Toujours utiliser le même format d’URLs (et attention aux URLs relatives)
Tester via un crawler tiers ou un outil d’audit pour identifier les doublons (Xenu, aHrefs, SEMRush, ContentKing, OnCrawl, DeepCrawl, Screaming Frog…)
Surveiller les retours de la Google Search Console et éventuellement utiliser les outils GSC pour indiquer le domaine préféré et quoi faire avec les paramètres
Vérifier que les contenus achetés sont bien originaux (et l’écrire dans le contrat)
Défendre ses droits d’auteur (DMCA)
1 contenu = 1 URL (attention notamment aux modules / widgets qui reprennent les mêmes contenus sur toutes les pages)

Gérer les contenus dupliqués

Contenu dupliqué sur le web : volontaire ou pas ?

Les différentes sortes de contenus dupliqués

Contenus dupliqués externes

Contenus dupliqués internes techniques

Contenus dupliqués internes liés non techniques

Bonnes pratiques face au contenu dupliqué.

Poster le commentaire Annuler la réponse

Gérer les contenus dupliqués

Contenu dupliqué sur le web : volontaire ou pas ?

Les différentes sortes de contenus dupliqués

Contenus dupliqués externes

Contenus dupliqués internes techniques

Contenus dupliqués internes liés non techniques

Bonnes pratiques face au contenu dupliqué.

Poster le commentaire Annuler la réponse

Contactez Tyseo, agence webmarketing d'Annecy