Contenu en double : le guide ultime pour trouver et corriger le contenu en double pour un référencement amélioré

Publié: 2019-10-18

Le contenu en double est mauvais. L'utilisation du même contenu, sous forme totale ou partielle, sur votre site Web entraîne une mauvaise expérience utilisateur et déclenche un drapeau rouge dans l'algorithme de recherche de Google. Dans l'ancien temps du référencement, le contenu en double était souvent utilisé comme une astuce bon marché pour obtenir plus de mots-clés et plus de contenu sur votre site Web. Google a donc développé un système pour éliminer les spammeurs qui enfreignaient les meilleures pratiques en faisant cela. Aujourd'hui, si vous êtes surpris à utiliser du contenu en double, votre autorité de domaine pourrait en souffrir et le classement de vos mots clés pourrait chuter.

Heureusement, Google est assez juste sur la question. L'entreprise comprend que la majorité des problèmes de contenu en double ne sont pas dus à une tentative malveillante d'augmenter le classement à moindre coût. En réalité, la plupart des cas de contenu en double sont des accidents ou sont ignorés par les webmasters. Pourtant, avoir trop de contenu répété sur votre site peut être dommageable, et il est dans votre intérêt de faire un test pour voir s'il y a des doublons sur votre site.

Table des matières

introduction

Depuis que j'ai commencé à me familiariser avec le référencement, cette question a fait le tour des forums et des blogs. Quelque part, quelqu'un a perpétué l'idée qu'avoir le même contenu sur la page A de votre site Web que sur la page B de votre site Web pénaliserait votre site dans les classements des moteurs de recherche. Cette idée a commencé à s'infiltrer dans la communauté du marketing Internet parce qu'un groupe de spammeurs a réalisé que lorsqu'ils avaient un contenu (c'est-à-dire un article) qui recevait beaucoup de trafic de recherche, ils pouvaient remplir chaque page de leur site Web avec le même contenu afin de tirer encore plus de trafic des moteurs de recherche. De toute évidence, le même article dupliqué de manière flagrante sur des centaines de pages d'un même domaine est une tentative malveillante de gagner du trafic sur les moteurs de recherche sans réellement ajouter de valeur. Google a adopté assez rapidement cette méthode et a corrigé ses algorithmes pour détecter le contenu en double et n'en afficher qu'une seule version dans les classements de recherche. Les sites Web qui se sont livrés à cette activité flagrante ont été désindexés et ont fait couler beaucoup d'encre sur les forums et les blogs de la communauté du marketing Internet. Ainsi est née la peur de la « pénalité de contenu en double ».

Cependant, dans la grande majorité des cas, le contenu dupliqué est non malveillant et simplement un produit du CMS (système de gestion de contenu) sur lequel le site Web s'exécute. Par exemple, WordPress (le CMS standard de l'industrie) crée automatiquement des pages « Catégorie » et « balise » qui répertorient tous les articles de blog dans certaines catégories ou balises. Cela crée plusieurs URL au sein du domaine qui contiennent le même contenu.

1) Google peut décider de me laisser partir avec un "avertissement" et simplement choisir de ne pas indexer 99 de mes 100 messages en double, mais de garder l'un d'entre eux indexé. REMARQUE : Cela ne signifie pas que les classements de recherche de mon site Web seraient affectés de quelque manière que ce soit.

2) Google peut décider qu'il s'agit d'une tentative si flagrante de jouer avec le système qu'il désindexe complètement l'ensemble de mon site Web de tous les résultats de recherche. Cela signifie que, même si vous recherchez directement « Example.com », Google ne trouvera aucun résultat.

Ainsi, l'un de ces deux scénarios est garanti. Lequel dépend de la gravité de votre erreur. Dans les propres mots de Google :

Le contenu en double sur un site n'est pas un motif d'action sur ce site, sauf s'il apparaît que l'intention du contenu en double est d'être trompeur et de manipuler les résultats des moteurs de recherche. Si votre site souffre de problèmes de contenu en double et que vous ne suivez pas les conseils énumérés ci-dessus, nous faisons un bon travail en choisissant une version du contenu à afficher dans nos résultats de recherche.

Ce type de duplication non malveillante est assez courant, d'autant plus que de nombreux CMS ne le gèrent pas bien par défaut. Ainsi, lorsque les gens disent qu'avoir ce type de contenu en double peut affecter votre site, ce n'est pas parce que vous risquez d'être pénalisé ; c'est simplement dû à la façon dont fonctionnent les sites Web et les moteurs de recherche.

La plupart des moteurs de recherche s'efforcent d'atteindre un certain niveau de variété ; ils veulent vous montrer dix résultats différents sur une page de résultats de recherche, pas dix URL différentes qui ont toutes le même contenu. À cette fin, Google essaie de filtrer les documents en double afin que les utilisateurs subissent moins de redondance.

Alors, que se passe-t-il lorsqu'un moteur de recherche détecte du contenu en double ? (de https://searchengineland.com/search-illustrated-how-a-search-engine-determines-duplicate-content-13980)

Comment Google pénalise le contenu en double

How Google Penalizes Duplicate Content

Google est assez ouvert sur ses politiques de contenu en double. Selon leurs rapports, si Google rencontre deux versions différentes de la même page Web, ou un contenu sensiblement similaire au contenu sur site ailleurs, il sélectionnera au hasard une version «canonique» à indexer. L'exemple qu'ils donnent est le suivant : imaginez que vous ayez une page Web standard et une version imprimable de cette même page Web, avec un contenu identique. Google choisirait l'une de ces pages au hasard pour l'indexer et ignorerait complètement l'autre version. Cela n'implique aucune pénalité, mais il est dans votre intérêt de vous assurer que Google indexe et organise correctement votre site.

Le vrai problème survient lorsque Google soupçonne votre contenu d'être dupliqué de manière malveillante ou manipulatrice. Fondamentalement, si Google pense que votre contenu dupliqué était un effort pour tromper son algorithme de classement, vous ferez face à des mesures punitives. Il est dans votre intérêt de corriger les erreurs bien à l'avance afin d'éviter un tel sort pour votre site.

Syndication : Dupliquer du contenu sur plusieurs domaines

Parfois, le même contenu peut apparaître mot à mot sur différentes URL. Voici quelques exemples :

  • Articles de presse (pensez à Associated Press)
  • Le même article d'un répertoire d'articles récupéré par différents Webmasters
  • Webmasters soumettant le même contenu à différents répertoires d'articles
  • Communiqués de presse diffusés sur le Web
  • Informations sur les produits d'un fabricant apparaissant sur différents sites Web de commerce électronique

Tous ces exemples résultent de la syndication de contenu . Le Web regorge de contenus syndiqués. Un communiqué de presse peut créer du contenu en double sur des milliers de domaines uniques. Mais les moteurs de recherche s'efforcent d'offrir une bonne expérience utilisateur aux chercheurs, et fournir une page de résultats composée des mêmes éléments de contenu ne ferait pas le bonheur de beaucoup de gens. Alors, qu'est-ce qu'un moteur de recherche est censé faire ? D'une manière ou d'une autre, il doit décider quel emplacement du contenu est le plus pertinent à montrer au chercheur. Alors comment fait-il ? Directement du grand G :

Lorsque nous rencontrons de tels contenus en double sur différents sites, nous examinons divers signaux pour déterminer quel site est le site d'origine, ce qui fonctionne généralement très bien. Cela signifie également que vous ne devriez pas être très inquiet de voir des effets négatifs sur la présence de votre site sur Google si vous remarquez que quelqu'un gratte votre contenu.

Eh bien, Google, je ne suis pas d'accord. Malheureusement, je ne pense pas que vous sachiez très bien quel site est à l'origine du contenu. Michael Gray non plus, qui déplore dans son article de blog "Quand Google obtient un contenu en double erroné" que Google attribue souvent son contenu original à d'autres sites auxquels il syndique son contenu. Selon Michel :

Cependant, le problème est avec Google, leur classement algo IMHO place trop de biais sur la confiance et l'autorité du domaine.

Et je suis d'accord avec Michel. Pendant une grande partie de ma carrière dans le marketing Internet, j'ai syndiqué des articles complets dans divers répertoires d'articles afin d'étendre la portée de mon contenu tout en l'utilisant comme « carburant SEO » pour obtenir des backlinks white hat vers mes sites Web. Selon Google, tant que vos versions syndiquées contiennent un lien retour vers votre original, cela vous aidera lorsque Google décidera quelle pièce est l'originale. Voici la preuve :

Tout d'abord, une vidéo mettant en vedette Matt Cutts, un blogueur bien connu et ancien ingénieur en algorithmes des moteurs de recherche pour Google :

La discussion sur la syndication commence vers 14 h 25. À 2:54, il dit que vous pouvez dire aux gens que vous êtes le "maître du contenu" en incluant un lien de la pièce syndiquée vers votre pièce originale.

Plus de preuves :

Dans les cas où vous syndiquez votre contenu mais souhaitez également vous assurer que votre site est identifié comme la source d'origine, il est utile de demander à vos partenaires de syndication d'inclure un lien vers votre contenu d'origine.

Et enfin:

Syndiquer soigneusement : si vous syndiquez votre contenu sur d'autres sites, Google affichera toujours la version que nous pensons être la plus appropriée pour les utilisateurs dans chaque recherche donnée, qui peut ou non être la version que vous préférez. Cependant, il est utile de s'assurer que chaque site sur lequel votre contenu est syndiqué comprend un lien vers votre article original. Vous pouvez également demander à ceux qui utilisent votre matériel syndiqué d'utiliser la balise meta noindex pour empêcher les moteurs de recherche d'indexer leur version du contenu.

Maintenant, ce que je trouve intéressant dans cette dernière citation de Google, c'est qu'ils admettent en fait que le contenu qu'ils choisissent n'est peut-être pas le bon. D'après mon expérience, il est très probable que vous ne choisissiez pas le bon site si le site à l'origine du contenu est relativement jeune ou a un faible PageRank. Cela soulève donc le prochain gros problème:

Comment puis-je être classé en tant que source originale du contenu que je syndique ?

How do I get ranked as the original source for the content I syndicate?

Dans une vie antérieure, j'ai syndiqué des tonnes de mes articles à EzineArticles uniquement pour voir Google les créditer de meilleurs résultats de recherche pour mon contenu, même lorsque je me suis assuré que Google avait indexé mon contenu à son emplacement d'origine avant de le soumettre à Ezine. Vanessa Fox, qui a précédemment travaillé chez Google et a créé Webmaster Central, tente de répondre à cette question dans son article de blog, « Classement comme source originale pour le contenu que vous syndiquerez ».

Malheureusement, elle conclut que, fondamentalement, il n'y a rien que vous puissiez faire pour vous en assurer. Elle suggère:

Créez une version différente du contenu à syndiquer que ce que vous écrivez pour votre propre site. Cette méthode fonctionne mieux pour des choses comme les flux d'affiliation de produits. Je ne pense pas que cela fonctionne aussi bien pour des choses comme les articles de blog ou d'autres types d'articles. Au lieu de cela, vous pouvez faire quelque chose comme écrire un article de synthèse de haut niveau pour la syndication et un article de blog avec des détails sur ce sujet pour votre propre site.

La réécriture d'un contenu n'est pas ma définition de la syndication. C'est juste réécrire un article dans des mots différents et le distribuer. Presque toutes les informations circulant sur le web ont déjà été postées ailleurs de toute façon ; même ce billet de blog est composé d'une tonne d'informations que j'ai trouvées ailleurs sur Internet. Donc pour moi, écrire un nouvel article qui dit la même chose avec des mots différents et le distribuer aux partenaires de syndication n'est pas vraiment une syndication de l'article original. C'est la syndication d'un article différent. Nous restons donc avec la question des résultats de la syndication du même contenu qui apparaît déjà sur votre site Web : quels sont les effets de le faire ? Cela peut-il nuire à mon classement de quelque manière que ce soit ?

Pour moi, c'est la question la plus importante concernant le contenu en double. Avant de me lancer dans cette analyse, examinons une question fondamentale importante.

Pourquoi voudrais-je syndiquer exactement le même contenu de mon site Web ailleurs ?

Internet fonctionne vraiment sur une simple économie de concessions mutuelles. Les deux produits qui sont échangés sont des contenus uniques et des backlinks . Le contenu unique est défini comme un contenu que Google n'identifie pas comme dupliqué. Il existe diverses théories sur l'endroit où Google trace exactement la ligne pour décider si le contenu doit être considéré comme dupliqué , mais un chiffre que j'ai beaucoup entendu dire est de 30%. Fondamentalement, selon la théorie des 30%, si Google identifie que plus de 30% d'un contenu particulier apparaît ailleurs sur Internet, il sera classé comme doublon. Maintenant, je ne peux pas attester de l'exactitude de ce chiffre, alors prenez-le pour ce qu'il vaut. Il existe également divers logiciels de détection de contenu en double tels que CopyScape, qui est conçu pour aider les webmasters à vérifier si leur contenu a été volé et dupliqué dans d'autres domaines. C'est également un bon outil à utiliser pour déterminer si votre contenu est susceptible d'être considéré comme dupliqué par Google. Et c'est ce qui compte vraiment.

Mais je me suis un peu égaré, alors revenons à la discussion sur les raisons pour lesquelles vous voudriez syndiquer du contenu. J'ai évoqué l'économie Internet des backlinks et des contenus uniques. Un contenu unique est souhaitable car il sera indexé par Google, donnant à ce site Web particulier une autre instance de son «nom dans le chapeau» pour ainsi dire. Fondamentalement, plus un site Web a indexé de contenu, plus il a de chances d'être renvoyé dans les résultats de recherche de Google pour les requêtes pertinentes.

Mais qu'en est-il des backlinks ? Les backlinks sont simplement des liens de n'importe quel autre site Web vers le vôtre. Les moteurs de recherche considèrent qu'il s'agit d'un « vote » lorsqu'un site Web est lié à un autre. Ce vote est utilisé pour déterminer l'autorité et la pertinence dans les résultats de recherche de Google. En fait, on pense que les backlinks sont le facteur le plus important pour déterminer le classement de votre site Web pour une requête donnée. Il y a une tonne de facteurs qui jouent dans les backlinks et combien leur « vote » compte, mais j'y reviendrai dans un futur article de blog. Pour l'instant, ce que vous devez savoir, c'est que les backlinks sont précieux car ils améliorent votre classement dans les moteurs de recherche, ce qui signifie plus de trafic vers votre site Web.

OK, alors maintenant nous avons couvert les produits de base de la micro-économie du Web. Ceci est important car lorsque vous syndiquez votre contenu, en supposant que vous y ayez inclus un backlink renvoyant à votre source d'origine, vous obtenez un backlink de chaque site Web vers lequel votre contenu a été syndiqué. Génial, non ?

Peut être pas. La première question est de savoir à quel point Google valorise un backlink d'un élément de contenu connu pour être dupliqué. Franchement, je ne sais pas. D'une part, il est facile de syndiquer du contenu sur un tas de blogs à acceptation automatique si votre seul objectif est d'obtenir des backlinks, et cela ne dit rien sur la qualité de votre contenu ou sur la façon dont l'auteur du contenu devrait être récompensé. D'un autre côté, la syndication peut également être un excellent indicateur de la qualité d'un contenu particulier. Après tout, pourquoi serait-il autant syndiqué s'il n'était pas vraiment génial ?

En fin de compte, Google a probablement des signaux sur la façon dont il répond à ces deux questions, mais les vraies réponses ne sont probablement connues que par les ingénieurs logiciels qui ont codé l'algorithme. De nombreuses personnes essaient d'augmenter la valeur de leur contenu syndiqué en s'engageant dans un « filage » de contenu, ce qui est parfaitement légitime tant qu'il ne s'agit pas des déchets souvent rejetés par les logiciels automatisés. J'entrerai plus en profondeur dans le filage du contenu dans un article ultérieur. Pour l'instant, nous essayons toujours de répondre à la question de savoir si la syndication du contenu exactement tel qu'il apparaît sur votre propre site Web est une bonne ou une mauvaise idée. Après des tests minutieux, je suis arrivé à la conclusion suivante :

.

…….

*roulement de tambour*

……

*plus de roulement de tambour*

…..

Peut-être.

Je sais je sais. Ce n'est pas la réponse que vous vouliez. Permettez-moi d'expliquer.

Je possède plus de 50 domaines et j'aime faire beaucoup de tests sur eux. J'ai passé quelques heures hier soir à effectuer des recherches pour mon contenu que j'avais syndiqué à divers autres blogs et annuaires. Et ce que j'ai trouvé était à la fois décevant et encourageant.

La partie décevante était que, dans de nombreux cas, mon contenu syndiqué était supérieur à mon propre contenu original. Même si un site mieux classé que le mien pour mon propre contenu avait un backlink vers mon site, l'auteur du contenu, c'était comme si Google ignorait complètement ce backlink et accordait toujours plus de crédit aux autres sites. Dans certains cas, la version du contenu de mon propre site était introuvable, tombant évidemment dans le cluster d'URL en double de Google et étant filtrée des résultats de recherche. Cela signifie qu'en syndiquant mon contenu, j'ai en fait, en fait, obtenu la désindexation de mon propre contenu.

C'est à peu près le pire scénario possible, mais c'est arrivé. Parfois, au moins. Et c'est la partie étrange ; parfois, mon contenu était reconnu comme le contenu original et recevait le classement le plus élevé. Avec d'autres sites et éléments de contenu, il s'est classé deuxième derrière un site de haute autorité, généralement EzineArticles. Je dois donc conclure ce qui suit :

Lorsque vous syndiquez votre contenu, cela peut :

  • Faites en sorte que votre propre source de contenu originale (c'est-à-dire votre site Web) soit, en fait, désindexée pour ce contenu
  • Faites en sorte que votre site soit bien classé pour les requêtes pertinentes pour votre contenu, mais pas le plus élevé
  • Faites en sorte que votre site se classe au premier rang pour votre contenu

Eh bien, cela couvre à peu près toutes les bases, n'est-ce pas ? Ce sont tous les résultats que j'ai observés en regardant mes propres sites et les résultats de la syndication d'articles provenant de ces sites. Fondamentalement, je peux conclure que Google ne fait pas toujours les choses correctement. Et, Google n'aime pas faire quoi que ce soit avec une quelconque cohérence. La dernière chose qu'ils veulent, c'est que nous, les référenceurs, comprenions complètement leur algorithme, car une fois que cela se produira, l'intégrité de leurs résultats de recherche sera détruite car les gens les manipulent tous en enfer.

La partie encourageante a été lorsque j'ai découvert que les backlinks du contenu syndiqué aidaient définitivement le classement de mes sites pour mes mots clés cibles. Il y a donc certainement au moins une certaine valeur de backlinks provenant de contenus que Google a étiquetés comme « en double ».

Ainsi, la question demeure : dois-je syndiquer mon contenu ?

Voyons les avantages de le faire :

Avantages de la syndication de votre contenu

  • Obtenez des backlinks de nombreux sites
  • Élargissez votre portée et la notoriété de votre marque sur des sites à fort trafic
  • Obtenez du trafic direct via des références à partir de backlinks dans votre contenu syndiqué
  • Un moyen beaucoup moins cher d'obtenir des backlinks que d'écrire un tout nouveau contenu (ou de réécrire du contenu existant) pour la distribution/la syndication

Inconvénients de la syndication de votre contenu

  • Les sites auxquels vous vous syndiquez peuvent en fait vous surpasser pour votre propre contenu s'ils ont une autorité supérieure à celle de votre propre site, même si vous suivez les conseils de Google et incluez un lien retour vers la source originale du contenu
  • Google peut regrouper l'URL sur laquelle réside votre contenu avec le reste des doublons, en la masquant des pages de résultats des moteurs de recherche (en la désindexant efficacement)

Ainsi, la syndication de votre contenu est risquée. Vous pouvez certainement obtenir le meilleur des deux mondes si Google décide que votre site est à l'origine du contenu , récompensant ainsi votre contenu avec la première position dans les résultats de recherche et obtenant également tous les backlinks juteux qui jouent dans votre classement général pour des mots clés spécifiques. Mais si Google se trompe (et c'est le cas, assez souvent, contrairement à ce qu'ils pourraient penser), vous risquez que votre contenu ne soit jamais classé pour les requêtes pertinentes des moteurs de recherche.

Et cela m'inquiète vraiment, car j'ai toujours pensé qu'il n'y avait rien d'autre que quelqu'un d'autre puisse faire pour nuire au classement d'un site Web en particulier. Après avoir analysé ces résultats, je crains d'avoir trouvé une faille dans mon propre argument ; si quelqu'un d'autre visite mon site Web, copie tout mon contenu et le diffuse sur le Web, il est possible que les sites sur lesquels mon contenu a été syndiqué soient en fait mieux classés que mon propre site. Google essaie de résoudre ce problème ici ainsi que dans la vidéo de Matt Cutts :

Dans la plupart des cas, un webmaster n'a aucune influence sur les tiers qui récupèrent et redistribuent le contenu sans le consentement du webmaster. Nous réalisons que ce n'est pas la faute du webmaster concerné, ce qui signifie qu'un contenu identique apparaissant sur plusieurs sites en soi n'est pas en soi considéré comme une violation de nos directives pour les webmasters. Cela conduit simplement à d'autres processus dans le but de déterminer la source d'origine du contenu - quelque chose dans lequel Google est assez bon, car dans la plupart des cas, le contenu d'origine peut être correctement identifié, ce qui n'a aucun effet négatif sur le site à l'origine du contenu.

Encore une fois, malheureusement, je dois souligner que dans ma propre expérience, à plusieurs reprises, j'ai vu mon propre contenu se classer moins bien que les sites auxquels il était syndiqué. Donc, même si Google pense qu'il est bon d'identifier la source originale du contenu, mes données suggèrent le contraire. Avec le temps, on ne peut qu'espérer que Google améliore cet aspect de son algorithme ; il n'y a certainement rien de plus que nous puissions faire en tant que Webmasters. Au lieu de cela, il vous suffit de comprendre les avantages et les inconvénients de la syndication et de décider si vous êtes à l'aise avec le risque que Google identifie à tort la propriété de votre contenu.

Voici quelques conseils pour minimiser le risque que Google se trompe (en théorie) :

  • Publiez toujours le nouveau contenu sur votre propre site Web, puis attendez de le syndiquer ailleurs jusqu'à ce que Google ait exploré et indexé votre contenu. Vous pouvez vérifier si une page particulière a été indexée en effectuant une requête de recherche de votre URL exacte, entre guillemets. Si la recherche renvoie le résultat correct (c'est-à-dire pas zéro), alors elle a été indexée. Une autre astuce intéressante que vous pouvez essayer consiste à sélectionner au hasard 11 à 12 mots dans votre contenu et à rechercher cette chaîne, encore une fois entre guillemets. Vous ne le penseriez pas, mais la probabilité que 10 à 12 mots d'une séquence spécifique apparaissent ailleurs sur le Web est extrêmement faible. Essayez-le maintenant : copiez et collez une phrase aléatoire de ce paragraphe dans Google, entourez-la de guillemets et voyez combien de résultats vous obtenez. Vous ne trouverez probablement que cette URL en conséquence, à moins que cet article n'ait été syndiqué (c'est également un excellent moyen de vérifier quels sites ont récupéré votre contenu lorsque vous le syndiquerez).
  • Incluez toujours un backlink dans votre version syndiquée vers l'URL de la source de contenu d'origine. Google dit que c'est la façon de faire les choses correctement, mais ce n'est toujours pas une certitude. Néanmoins, cela ne peut certainement pas faire de mal.

Que diriez-vous de prendre la suggestion de Vanessa et de réécrire votre contenu avant de le syndiquer ?

Cela résoudrait certainement le problème de l'éventuelle désindexation de votre propre contenu lorsque Google attribue à tort la propriété du contenu, mais cela pose également des problèmes majeurs :

  • C'est vraiment cher si vous avez beaucoup de contenu. Pensez au temps qu'il vous faudrait pour réécrire chaque article dont vous disposez. Ce message à lui seul compte plus de 6 000 mots et m'a pris des heures et des heures à taper ! Vous pouvez sous-traiter la réécriture à un service comme Human Rewriter, mais cela vous coûtera environ 4 $ par 500 mots (moins que le coût du référencement et de la création de liens), mais la dépense est probablement redondante. Cela peut coûter très cher si vous avez beaucoup de contenu.
  • Vous diffusez toujours du contenu thématique autour des mêmes mots-clés que votre contenu original, il n'est donc pas exagéré de penser que le contenu réécrit surpasserait toujours votre contenu original pour les requêtes de recherche pertinentes, en particulier sur les sites de haute autorité tels que EzineArticles.

Contenu en double sur le même domaine

Le dernier mot est que, à moins que vous ne dupliquiez de manière flagrante votre contenu sur des tonnes d'URL au sein du même domaine, il n'y a rien à craindre. L'une de vos URL sur laquelle réside le contenu dupliqué sera indexée et choisie comme « représentante » de ce cluster d'URL. Lorsque les utilisateurs effectuent des requêtes de recherche dans les moteurs de recherche, ce contenu particulier s'affiche comme résultat pour les requêtes pertinentes, et pas les autres URL du cluster dupe. Aussi simple que cela.

Cependant, le revers de la médaille est le contenu en double dans différents domaines . Et c'est un tout autre monstre. Prêt à l'affronter ? Nous y voilà.

« Contenu en double » traditionnel

Traditional “Duplicate Content”

Le contenu dupliqué traditionnel est le type de contenu qui vient à l'esprit de manière intuitive lorsque vous entendez la phrase. Il s'agit d'un contenu identique ou très similaire à un contenu existant ailleurs sur le Web (généralement sur votre propre site). Il existe plusieurs raisons pour lesquelles un site dupliquerait intentionnellement ce contenu :

  • Reproduire du contenu ancien pour que votre site apparaisse plus à jour.
  • Copier du matériel encore et encore pour ajouter plus de pages à votre site.
  • Du matériel plagié à faire passer pour le vôtre.

Toutes ces situations sont trompeuses, parfois pour les utilisateurs et parfois pour Google, et pour la plupart, les webmasters savent se tenir loin de ces pratiques. Si vous vous y engagez, vous méritez probablement une pénalité.

Contenu en double sournois

Je l'appelle contenu en double « sournois » en raison de la facilité avec laquelle il peut vous surprendre. Vous n'avez pas l'intention de créer des pages en double, mais cela peut arriver de toute façon. Habituellement, cela est dû à un problème technique ou à une reproduction involontaire; par exemple:

  • Si vous disposez de deux versions de votre site Web pour https:// et https://, Google peut indexer les deux versions de chaque page séparément, puis marquer ces pages comme instances de contenu en double.
  • Si vous disposez d'une version « imprimable » d'une page Web, elle s'affichera sous la forme d'une URL distincte avec le même contenu.
  • Formes complètes et modifiées pour les mobiles de pages Web, comme les sections de forum.

Malheureusement, la plupart de ces cas peuvent survenir naturellement lorsque vous créez et modifiez votre site Web, à moins que vous n'ayez spécifiquement pris des mesures préventives pour l'arrêter.

"Mais je ne copie pas mon contenu"

Votre première réaction à cette évaluation peut être un licenciement. Vous ne copiez pas votre contenu d'une page à une autre. Vous prenez un soin méticuleux pour vous assurer que chaque page de votre site est écrite à l'origine, sans phrases ou sections dupliquées.

Malheureusement, il y a toujours un risque pour vous. Ce que Google enregistre comme « contenu en double » n'est pas toujours ce qu'un utilisateur considère comme du contenu en double. Un utilisateur parcourant vos pages peut ne jamais rencontrer une phrase répétée, mais Google peut explorer votre site et trouver des dizaines de répétitions dans vos balises de titre, ou vous pouvez avoir plusieurs URL non canonisées hébergeant le même contenu sur la page. Même si vous êtes sûr de ne pas avoir influencé directement une forme de contenu en double, cela vaut la peine de vérifier votre site pour en être sûr.

Comment trouver (et nettoyer) le contenu en double

How to Find (and Clean) Duplicate Content

La correction du contenu en double est relativement facile. Le trouver est la partie difficile. Comme je l'ai mentionné ci-dessus, le contenu en double peut être difficile à détecter. Ce n'est pas parce que vous n'avez pas de contenu répété du point de vue de l'expérience utilisateur que vous n'avez pas de contenu répété du point de vue d'un algorithme de recherche.

Votre première étape est manuelle ; parcourez votre site et voyez s'il y a des répétitions évidentes de contenu. A titre d'exemple, avez-vous un paragraphe identique concluant chacune de vos pages de services ? Réécrivez-le. Avez-vous réutilisé une section d'un ancien article de blog dans un nouvel article ? Faites une distinction. Une fois que vous avez terminé cette analyse manuelle initiale, vous pouvez utiliser deux outils principaux pour trouver davantage d'instances mieux cachées de contenu dupliqué.

Effectuez votre propre recherche

Tout d'abord, vous pouvez effectuer une recherche pour voir à travers les yeux de Google. Utilisez une balise Site: pour restreindre votre recherche à votre site uniquement, et poursuivez avec une balise intitle: pour rechercher une phrase spécifique. Cela devrait ressembler un peu à ceci :

Site : thisisyoursite.comintitle :"thisisyourtargetphrase"

Cette recherche générera tous les résultats sur votre site donné qui correspondent à la phrase que vous avez choisie. Si vous voyez plusieurs résultats identiques, vous savez que vous avez un problème de contenu en double.

Vérifier les outils pour les webmasters

Un moyen plus simple de vérifier le contenu en double consiste à utiliser les outils Google pour les webmasters pour explorer votre site et signaler toute erreur. Une fois que vous avez créé et vérifié votre compte Outils pour les webmasters, accédez à l'onglet Apparence de la recherche et cliquez sur "Améliorations HTML". Ici, vous pourrez voir et télécharger une liste de méta descriptions et de balises de titre en double. Ce sont des problèmes courants et facilement réparables qui nécessitent juste un peu de temps pour être réécrits.

Pour déterminer si un échantillon de contenu en double va faire baisser votre classement, vous devez d'abord déterminer pourquoi vous allez publier un tel contenu en premier lieu.

Tout se résume à votre objectif.

Si votre objectif est d'essayer de punk le système en utilisant un élément de contenu qui a été publié ailleurs, vous serez forcément pénalisé. Le but est clairement trompeur et destiné à manipuler les résultats de la recherche.

Voici ce que Google a à dire sur ce genre de comportement :

Le contenu en double sur un site n'est pas un motif d'action sur ce site, sauf s'il apparaît que l'intention du contenu en double est d'être trompeur et de manipuler les résultats des moteurs de recherche.

Copyscape

Copyscape

Pour 5 cents par recherche, vous pouvez demander à Copyscape de vérifier une pièce entière pour vous. Mais si votre budget ne permet pas ce genre de dépenses, vous pouvez toujours utiliser Copyscape gratuitement. Le hic avec Copyscape gratuit est que vous devrez d'abord publier le contenu en ligne pour récupérer son URL.

Copiez et collez l'URL de votre contenu nouvellement publié dans le champ de recherche de Copyscape. Copyscape scanne l'intégralité des interwebs à la recherche de copies du contenu que vous venez de publier.

Copyscape est un outil fiable sur lequel de nombreux éditeurs dépendent fortement pour vérifier la qualité et l'originalité. Il existe d'autres outils très similaires à Copyscape que vous pouvez utiliser dans le même but, tels que Plagiarism Detect et InterNIC.

La vérification du contenu en double est assez facile et simple. C'est une tâche de référencement indispensable pour les débutants, mais personne ne devrait la tenir pour acquise. Avec le bon ensemble d'outils, vous pouvez confortablement vous assurer que votre contenu est unique bien avant de le publier en ligne.

Et en fournissant à vos lecteurs un contenu unique et de haute qualité, vous aurez fourni une grande valeur.

Comment nettoyer le contenu en double

Une fois que vous avez identifié les zones critiques de duplication sur votre site, vous pouvez commencer à prendre des mesures pour les corriger. Plus tôt vous prendrez des mesures correctives, plus tôt vous commencerez à vous remettre des effets négatifs. Heureusement, Google vous permet également de trouver et de corriger facilement le contenu en double sur votre site. Lorsque vous vous connectez à Google Webmaster Tools, accédez à « Apparence de recherche », puis « Améliorations HTML ». Cela vous permettra de générer une liste de toutes les pages que Google détecte comme étant dupliquées. Une fois que vous avez cette liste, vous pouvez commencer à éliminer les erreurs en double une par une avec l'une des méthodes suivantes :

  • Éliminez les doublons inutiles. La première étape est la plus simple et la plus évidente, même si elle peut prendre du temps si vous avez plusieurs instances. Dans toutes les situations où vous pouvez réécrire un élément de contenu afin de résoudre la duplication, faites-le. Mettez vos idées en mots différents, utilisez différents dispositifs de cadrage et n'ayez pas peur de réécrire à partir de zéro.
  • Chaudronneries . Long boilerplates or copyright notices should be removed from various pages and placed on a single page instead. In cases where you would have to call your readers' attention to boilerplate or copyright at the bottom of each of your pages or posts, insert a link to the single special page instead.
  • Similar pages . There are cases when similar pages must be published, such as SEO for small and big businesses. Avoid publishing the same or similar information. Instead, expand on both services and make the information very specific to each business segment.
  • Noindex . People could be syndicating your content. If there's no way to avoid this, include a note at the bottom of each page of your content that asks users to include a “noindex” metatag on your syndicated content to prevent the duplicate content from being indexed by the search engines.
  • 301 redirects . Let the search engine spiders know that a page has permanently moved by using 301 redirects. This also alerts the search engines to remove the old URL from their index and replace it with the new address.
  • Choosing only one URL . There might be several URLs you could use to point to your homepage, but you should choose only one. When choosing the best URL for your page, be sure to keep the users in mind. Make the URL user-friendly. This makes it easier not only for your users to find your page, but also for the search engines to index your site. Some duplicate content errors aren't due to actual duplicated content. They have to do with the URL structure that Google sees. For example, if you have one page that is associated with thisisyoursite.com/, thisisyoursite.com/?, and thisisyoursite.com/?sessionid=111, Google will see that page as repeating content three times. First, choose between www or non-www formatting and stick to that.
  • Always create unique content . Affiliates almost always fall victim to the convenience of ready-made content provided by merchants. If you are an affiliate, be sure to create unique content for the merchant products you are promoting. Don't just copy and paste.

Conclusion

Let's do a brief recap. “Duplicate content” can refer to plagiarized material, copied content for the purposes of site inflation, but more importantly for the average user, pages that Google indexes twice. These duplicate forms of content are easy to track down with Google Webmaster Tools and fix with canonicalization adjustments or redirects, but if they go unnoticed, they can cumulatively bring your rankings down. Be proactive and scout for duplicate content at least once every few months—unless your site management process is flawless, it's probably that duplicate content will surface when you least expect it.

In the end, it all comes down to testing on a massive scale, getting solid data and making decisions based on that data. So here's what I'm going to do. I'm going to run a huge test and then update this post with my results. At the beginning of the post I mentioned that I am soon launching a massive Website with tons of unique content. I'm going to syndicate it all, completely unedited, as far and wide as I possibly can. As I do so, I'll monitor traffic sources to see what keywords people are using to find my content. Then, I'll replicate those keyword queries in Google and see where my site ranks in the search results. This should be the definitive test for the merits of syndication.

Thanks for sticking with me through this crazy post!