중복 콘텐츠: SEO 개선을 위한 중복 콘텐츠 찾기 및 수정을 위한 최고의 가이드

게시 됨: 2019-10-18

중복된 내용은 좋지 않습니다. 웹사이트에서 전체 또는 부분적으로 동일한 콘텐츠를 사용하면 사용자 경험이 저하되고 Google 검색 알고리즘에 위험 신호가 발생합니다. SEO의 예전에는 웹사이트에서 더 많은 키워드와 더 많은 콘텐츠를 얻기 위한 값싼 속임수로 중복 콘텐츠를 사용하는 경우가 많았습니다. 따라서 Google은 이를 통해 모범 사례를 위반한 스패머를 제거하는 시스템을 발전시켰습니다. 오늘날, 중복 콘텐츠를 사용하는 것이 적발되면 도메인 기관이 타격을 받고 키워드 순위가 떨어질 수 있습니다.

다행히도 Google은 이 문제에 대해 상당히 공정합니다. 회사는 콘텐츠 중복 문제의 대부분이 값싸게 순위를 올리기 위한 악의적인 시도로 발생하지 않는다는 것을 알고 있습니다. 실제로 중복 콘텐츠의 대부분은 사고이거나 웹마스터가 간과합니다. 그러나 사이트에 반복되는 콘텐츠가 너무 많으면 손상될 수 있으므로 테스트를 실행하여 사이트에 중복이 있는지 확인하는 것이 가장 좋습니다.

소개
Google이 중복 콘텐츠를 처벌하는 방법
신디케이션: 도메인 간 중복 콘텐츠
내가 신디케이트하는 콘텐츠의 원본 소스로 순위를 매기려면 어떻게 해야 합니까?
내 웹사이트의 똑같은 콘텐츠를 다른 곳에서 신디케이트하고 싶은 이유는 무엇입니까?
콘텐츠 신디케이션의 이점
콘텐츠 신디케이션의 단점
동일한 도메인의 중복 콘텐츠
기존의 "중복 콘텐츠"
교활한 중복 콘텐츠
"하지만 내 콘텐츠를 복사하지 않습니다"
중복 콘텐츠를 찾고 정리하는 방법
카피스케이프
중복 콘텐츠를 정리하는 방법
결론

소개

SEO에 빠져들기 시작한 이래로 이 질문은 포럼과 블로그에서 소용돌이쳤습니다. 어딘가에서 누군가가 귀하의 웹사이트 페이지 A에 동일한 콘텐츠를 웹사이트의 페이지 B에 포함시키면 귀하의 사이트가 검색 엔진 순위에서 불이익을 받을 수 있다는 생각을 영속화했습니다. 이 아이디어는 인터넷 마케팅 커뮤니티에 퍼지기 시작했습니다. 많은 스패머들이 검색 트래픽이 많은 콘텐츠(예: 기사)가 있을 때 웹사이트의 모든 페이지를 검색 엔진에서 더 많은 트래픽을 끌어오기 위해 동일한 콘텐츠를 사용합니다. 분명히, 동일한 기사가 단일 도메인 내의 수백 페이지에 걸쳐 노골적으로 복제되는 것은 실제로 가치를 추가하지 않고 검색 엔진 트래픽을 얻으려는 악의적인 시도입니다. Google은 이 방법을 매우 빠르게 파악하고 중복 콘텐츠를 감지하고 검색 순위에 한 가지 버전만 표시하도록 알고리즘을 수정했습니다. 이 노골적인 활동에 관여한 웹사이트는 색인이 제거되었고 인터넷 마케팅 커뮤니티 전체에 걸쳐 포럼과 블로그를 통해 강물이 되었습니다. 따라서 "중복 콘텐츠 패널티"에 대한 두려움이 생겨났습니다.

그러나 대부분의 경우 중복 콘텐츠는 악성이 아니며 웹 사이트가 실행되는 CMS(콘텐츠 관리 시스템)의 제품일 뿐입니다. 예를 들어 WordPress(산업 표준 CMS)는 특정 카테고리 또는 태그 내의 모든 블로그 게시물을 나열하는 "카테고리" 및 "태그" 페이지를 자동으로 생성합니다. 이렇게 하면 동일한 콘텐츠를 포함하는 도메인 내에 여러 URL이 생성됩니다.

1) Google은 "경고"를 표시하고 내 중복 게시물 100개 중 99개를 인덱싱하지 않고 그 중 하나는 인덱싱하도록 선택할 수 있습니다. 참고: 이것은 내 웹사이트의 검색 순위가 어떤 식으로든 영향을 받는다는 것을 의미하지 않습니다.

2) Google은 모든 검색 결과에서 내 전체 웹사이트의 색인을 완전히 제거하는 시스템 게임을 노골적인 시도로 결정할 수 있습니다. 즉, "Example.com"을 직접 검색하더라도 Google은 결과를 찾지 못합니다.

따라서 두 가지 시나리오 중 하나는 반드시 발생합니다. 어느 것이 Google이 귀하의 실수를 얼마나 심각한 것으로 판단하는지에 달려 있습니다. 구글 자신의 말:

사이트의 중복 콘텐츠는 해당 사이트에 대한 조치의 근거가 되지 않습니다. 단, 중복 콘텐츠의 의도가 기만적이거나 검색 엔진 결과를 조작하는 것인 경우는 예외입니다. 사이트에 중복 콘텐츠 문제가 있고 위에 나열된 조언을 따르지 않는 경우 Google은 검색 결과에 표시할 콘텐츠 버전을 잘 선택하고 있습니다.

이러한 유형의 비악의적 복제는 상당히 일반적입니다. 특히 많은 CMS 가 기본적으로 이를 잘 처리하지 않기 때문입니다. 따라서 사람들이 이러한 유형의 중복 콘텐츠가 사이트에 영향을 미칠 수 있다고 말하는 것은 불이익을 받을 가능성이 있기 때문이 아닙니다. 그것은 단순히 웹 사이트와 검색 엔진이 작동하는 방식 때문입니다.

대부분의 검색 엔진은 특정 수준의 다양성을 추구합니다. 그들은 모두 동일한 콘텐츠를 가진 10개의 다른 URL이 아니라 검색 결과 페이지에 10개의 다른 결과를 표시하기를 원합니다. 이를 위해 Google은 사용자가 중복을 덜 경험할 수 있도록 중복 문서를 필터링하려고 합니다.

그렇다면 검색 엔진 크롤러가 중복 콘텐츠를 감지하면 어떻게 될까요? (https://searchengineland.com/search-illustrated-how-a-search-engine-determines-duplicate-content-13980에서)

Google이 중복 콘텐츠를 처벌하는 방법

How Google Penalizes Duplicate Content

Google은 중복 콘텐츠 정책에 대해 상당히 개방적입니다. 그들의 보고서에 따르면 Google이 동일한 웹 페이지의 두 가지 다른 버전을 발견하거나 다른 곳에서 온사이트 콘텐츠와 상당히 유사한 콘텐츠를 발견하면 색인을 생성할 "표준" 버전을 무작위로 선택합니다. 그들이 제공하는 예는 다음과 같습니다. 표준 웹 페이지와 동일한 콘텐츠로 완성된 동일한 웹 페이지의 프린터 친화적인 버전이 있다고 상상해 보십시오. Google은 색인을 생성할 페이지 중 하나를 무작위로 선택하고 다른 버전은 완전히 무시합니다. 이것이 패널티를 받는다는 의미는 아니지만 Google이 사이트를 적절하게 색인화하고 구성하는지 확인하는 것이 귀하에게 가장 좋습니다.

진짜 문제는 Google이 귀하의 콘텐츠가 악의적으로 또는 조작적으로 복제된 것으로 의심될 때 발생합니다. 기본적으로 Google이 귀하의 복제된 콘텐츠가 순위 알고리즘을 속이기 위한 노력이라고 생각하면 징벌적 조치에 직면하게 됩니다. 사이트에서 이러한 운명을 방지하기 위해 사전에 오류를 해결하는 것이 가장 좋습니다.

신디케이션: 도메인 간 중복 콘텐츠

때로는 동일한 콘텐츠가 서로 다른 URL에서 단어 단위로 나타날 수 있습니다. 이에 대한 몇 가지 예는 다음과 같습니다.

뉴스 기사(AP 통신 생각)
다른 웹마스터가 선택한 기사 디렉토리의 동일한 기사
다른 기사 디렉토리에 동일한 콘텐츠를 제출하는 웹마스터
웹을 통해 배포되는 보도 자료
다양한 전자상거래 웹사이트에 표시되는 제조업체의 제품 정보

이러한 모든 예는 콘텐츠 신디케이션의 결과입니다. 웹은 신디케이트된 콘텐츠로 가득 차 있습니다. 하나의 보도 자료는 수천 개의 고유한 도메인에 걸쳐 중복 콘텐츠를 생성할 수 있습니다. 그러나 검색 엔진은 검색자에게 좋은 사용자 경험을 제공하기 위해 노력하며 동일한 콘텐츠로 구성된 결과 페이지를 제공하는 것은 많은 사람들을 만족시키지 못합니다. 그렇다면 검색 엔진은 무엇을 해야 할까요? 어떻게든 콘텐츠의 어느 위치가 검색자에게 가장 관련성이 높은지 결정해야 합니다. 어떻게 그렇게 합니까? 큰 G에서 바로:

다른 사이트에서 이러한 중복 콘텐츠가 발견되면 다양한 신호를 살펴보고 어떤 사이트가 원래 사이트인지 확인하며 일반적으로 매우 잘 작동합니다. 이것은 또한 누군가가 귀하의 콘텐츠를 스크랩하는 것을 발견한 경우 Google에서 귀하의 사이트가 부정적인 영향을 받는 것에 대해 크게 걱정할 필요가 없음을 의미합니다.

글쎄, 구글, 나는 다르게 간청한다. 불행히도, 나는 당신이 콘텐츠의 출처를 결정하는 데 능숙하지 않다고 생각합니다. 자신의 블로그 게시물 "Google에서 중복 콘텐츠가 잘못되었을 때"에서 Google이 종종 자신의 콘텐츠를 신디케이트하는 다른 사이트의 원본 콘텐츠로 간주한다고 한탄하는 Michael Gray도 마찬가지입니다. 마이클에 따르면:

그러나 문제는 Google에 있습니다. 순위 알고리즘 IMHO는 도메인 신뢰와 권한에 너무 많은 편견을 둡니다.

그리고 마이클의 말에 동의합니다. 내 인터넷 마케팅 경력의 대부분을 위해 내 콘텐츠의 범위를 확장하기 위해 전체 기사를 다양한 기사 디렉토리에 신디케이트하는 동시에 내 웹사이트에 백링크를 가져오기 위해 "SEO 연료"로 사용했습니다. Google에 따르면 신디케이트된 버전에 원본에 대한 백링크가 포함되어 있으면 Google에서 어느 부분이 원본인지 결정할 때 도움이 됩니다. 다음은 증거입니다.

먼저, 잘 알려진 블로거이자 전 Google 검색 엔진 알고리즘 엔지니어인 Matt Cutts가 등장하는 비디오:

신디케이션에 대한 논의는 약 2:25부터 시작됩니다. 2:54에서 그는 신디케이트된 조각에서 원본 조각으로 다시 연결되는 링크를 포함하여 사람들에게 자신이 "콘텐츠의 마스터"라고 말할 수 있다고 말합니다.

더 많은 증거:

콘텐츠를 신디케이션하고 있지만 사이트가 원본 소스로 식별되도록 하려는 경우 신디케이션 파트너에게 원본 콘텐츠에 대한 링크를 포함하도록 요청하는 것이 좋습니다.

그리고 마지막으로:

신중하게 신디케이트 : 다른 사이트에서 콘텐츠를 신디케이트하는 경우 Google은 항상 각 검색에서 사용자에게 가장 적합하다고 생각하는 버전을 표시합니다. 이 버전은 원하는 버전일 수도 있고 아닐 수도 있습니다. 그러나 콘텐츠가 신디케이트되는 각 사이트에 원본 기사로 돌아가는 링크가 포함되어 있는지 확인하는 것이 좋습니다. 또한 신디케이트된 자료를 사용하는 사람들에게 noindex 메타 태그를 사용하여 검색 엔진이 콘텐츠 버전을 인덱싱하지 못하도록 할 수 있습니다.

이제 Google의 마지막 인용문에서 흥미롭게 생각하는 것은 그들이 선택한 콘텐츠가 올바른 것이 아닐 수도 있다는 사실을 실제로 인정한다는 것입니다. 내 경험에 따르면 콘텐츠를 생성한 사이트가 비교적 젊거나 PageRank가 낮은 경우 올바른 사이트를 선택하지 않을 가능성이 매우 높습니다. 따라서 다음과 같은 큰 문제가 발생합니다.

내가 신디케이트하는 콘텐츠의 원본 소스로 순위를 매기려면 어떻게 해야 합니까?

How do I get ranked as the original source for the content I syndicate?

전생에 나는 Ezine에 콘텐츠를 제출하기 전에 Google이 내 콘텐츠를 원래 위치에서 색인화했음을 완전히 확인했음에도 불구하고 내 콘텐츠에 대한 더 높은 검색 결과로 Google에 크레딧을 주기 위해 수많은 기사를 EzineArticles에 신디케이트했습니다. 이전에 Google에서 일하고 Webmaster Central을 구축한 Vanessa Fox는 블로그 게시물 "당신이 신디케이트하는 콘텐츠의 원본 소스로 순위 지정"에서 이 질문을 해결하려고 시도합니다.

불행히도 그녀는 기본적으로 당신이 확실히 하기 위해 할 수 있는 것은 아무것도 없다고 결론지었습니다. 그녀는 다음과 같이 제안합니다.

자신의 사이트에 작성하는 것과 다른 버전의 콘텐츠를 생성하여 신디케이트합니다. 이 방법은 제품 제휴 피드와 같은 경우에 가장 적합합니다. 블로그 게시물이나 다른 유형의 기사와 같은 것에 대해서는 잘 작동하지 않는다고 생각합니다. 대신 신디케이션에 대한 높은 수준의 요약 기사를 작성하고 해당 주제에 대한 세부 정보가 포함된 블로그 게시물을 자신의 사이트에 작성하는 등의 작업을 수행할 수 있습니다.

콘텐츠를 다시 작성하는 것은 신디케이션에 대한 제 정의가 아닙니다. 그것은 단지 다른 단어로 기사를 다시 작성하고 배포하는 것입니다. 어쨌든 웹에서 유통되는 거의 모든 정보는 이미 다른 곳에 게시되어 있습니다. 이 블로그 게시물조차도 인터넷의 다른 곳에서 찾은 수많은 정보로 구성되어 있습니다. 그래서 저에게 같은 내용을 다른 말로 새 기사를 작성하여 신디케이션 파트너에게 배포하는 것은 원래 기사의 신디케이션이 아닙니다. 다른 기사의 신디케이션입니다. 따라서 귀하의 웹사이트에 이미 표시된 것과 똑같은 콘텐츠 를 신디케이트한 결과에 대한 질문은 여전히 남아 있습니다. 그렇게 하면 어떤 영향이 있습니까? 어떤 식 으로든 내 순위에 해를 끼칠 수 있습니까 ?

나에게 이것은 중복 콘텐츠에 대한 가장 중요한 질문입니다. 그 분석을 시작하기 전에 중요한 기본 질문을 고려해 보겠습니다.

내 웹사이트의 똑같은 콘텐츠를 다른 곳에서 신디케이트하고 싶은 이유는 무엇입니까?

인터넷은 실제로 기브 앤 테이크의 단순한 경제에서 작동합니다. 교환되는 두 가지 상품은 고유한 콘텐츠 와 백링크 입니다. 고유 콘텐츠는 Google에서 중복으로 식별하지 않는 콘텐츠로 정의됩니다. Google이 콘텐츠를 중복 으로 간주해야 하는지 여부를 결정하는 정확한 위치에 대해 다양한 이론이 있지만 제가 많이 들은 수치 중 하나는 30%입니다. 기본적으로 30% 이론에 따르면 Google에서 특정 콘텐츠의 30% 이상이 인터넷의 다른 곳에서 나타나는 것으로 식별하면 중복 으로 분류됩니다 . 이제 이 수치의 정확성을 증명할 수 없으므로 가치 있는 것으로 간주하십시오. 또한 웹마스터가 자신의 콘텐츠가 도난당하고 다른 도메인에서 복제되었는지 확인할 수 있도록 설계된 CopyScape와 같은 다양한 중복 콘텐츠 감지 소프트웨어가 있습니다. 또한 귀하의 콘텐츠가 Google에서 중복 으로 간주될 가능성이 있는지 여부를 판단하는 데 사용할 수 있는 좋은 도구입니다. 그리고 그것이 정말 중요합니다.

그러나 나는 길을 조금 벗어났으므로 콘텐츠를 신디케이트하려는 이유 에 대한 논의로 돌아가겠습니다. 백링크와 고유 콘텐츠의 인터넷 경제에 대해 언급했습니다. 고유한 콘텐츠는 Google에서 색인을 생성하여 해당 웹사이트에 "모자에 담긴 이름"의 또 다른 예를 제공하기 때문에 바람직합니다. 기본적으로 웹사이트에 색인이 생성된 콘텐츠가 많을수록 관련 검색어에 대한 Google 검색 결과에 반환될 가능성이 높아집니다.

그러나 백링크는 어떻습니까? 백링크는 단순히 다른 웹사이트에서 귀하의 웹사이트로 연결되는 링크입니다. 검색 엔진은 한 웹사이트가 다른 웹사이트로 연결될 때 이를 "투표"로 간주합니다. 이 투표는 Google 검색 결과의 권위 및 관련성을 결정하는 데 사용됩니다. 사실, 백링크는 웹사이트가 주어진 쿼리에 대해 순위를 매기는 방식을 결정하는 가장 중요한 단일 요소라고 생각됩니다. 백링크와 "투표"가 얼마나 중요한 역할을 하는지에 영향을 미치는 수많은 요소가 있지만 향후 블로그 게시물에서 이에 대해 설명하겠습니다. 현재로서는 백링크가 검색 엔진의 순위를 향상시키고 웹사이트에 더 많은 트래픽이 유입되기 때문에 가치가 있다는 사실을 알아야 합니다.

자, 이제 우리는 웹의 미시 경제의 기본 상품을 다루었습니다. 이는 콘텐츠를 신디케이트할 때 원본 소스로 다시 연결되는 백링크를 포함했다고 가정하고 콘텐츠가 신디케이트된 모든 웹사이트에서 백링크를 가져오기 때문에 중요합니다. 대단해, 그렇지?

아마. 첫 번째 질문은 Google이 중복 콘텐츠로 알려진 콘텐츠의 백링크를 얼마나 높이 평가하는지입니다. 솔직히 잘 모르겠습니다. 한편으로는 백링크를 얻는 것이 유일한 목표인 경우 자동 수락 블로그에 콘텐츠를 신디케이트하기 쉽고, 콘텐츠의 품질이나 콘텐츠 작성자가 보상해야 하는 금액에 대해서는 아무 것도 말하지 않습니다. 반면에 신디케이션은 특정 콘텐츠의 품질을 나타내는 훌륭한 지표가 될 수도 있습니다. 결국, 그것이 정말로 훌륭하지 않다면 왜 그렇게 많이 신디케이트 되었을까요?

결국 Google은 이 두 가지 질문에 어떻게 답하는지에 대한 신호를 가지고 있을 수 있지만 실제 답은 알고리즘을 코딩한 소프트웨어 엔지니어만 알 수 있습니다. 많은 사람들은 자동화된 소프트웨어에 의해 자주 발생하는 쓰레기가 아닌 한 완벽하게 합법적인 콘텐츠 "회전"에 참여하여 신디케이트된 콘텐츠의 가치를 높이려고 합니다. 콘텐츠 회전에 대한 자세한 내용은 이후 게시물에서 다루겠습니다. 현재로서는 콘텐츠를 자신의 웹사이트에 표시되는 것과 똑같은 방식으로 신디케이션하는 것이 좋은 아이디어인지 나쁜 아이디어인지에 대한 질문에 답하기 위해 여전히 노력하고 있습니다. 신중한 테스트 끝에 다음과 같은 결론에 도달했습니다.

…

.....

*드럼롤*

…

......

*더 많은 드럼롤*

....

…

아마도.

내가 알지. 그것은 당신이 원하는 대답이 아닙니다. 설명을 드리겠습니다.

저는 50개 이상의 도메인을 소유하고 있으며 도메인 전반에 걸쳐 많은 테스트를 하고 싶습니다. 나는 어젯밤에 여러 다른 블로그와 디렉토리에 신디케이트된 내 콘텐츠를 검색하는 데 몇 시간을 보냈습니다. 그리고 내가 발견한 것은 실망스럽고 고무적이었습니다.

실망스러운 부분은 많은 경우 내 신디케이트된 콘텐츠가 내 원래 콘텐츠보다 순위가 높았다는 것입니다. 내 콘텐츠에 대해 내 사이트보다 순위가 높은 사이트에 콘텐츠 의 작성자인 내 사이트에 대한 백링크가 있더라도 Google은 그 백링크를 완전히 무시하고 여전히 다른 사이트에 더 많은 신용을 부여한 것과 같습니다. 어떤 경우에는 내 사이트 버전의 콘텐츠를 찾을 수 없었고, 분명히 Google의 중복 URL 클러스터에 들어가 검색 결과에서 필터링되었습니다. 즉, 내 콘텐츠를 신디케이트함으로써 실제로 내 콘텐츠의 색인이 제거되었습니다.

이것은 거의 가능한 최악의 시나리오이지만 실제로 일어났습니다. 가끔, 적어도. 그리고 그것은 이상한 부분입니다. 가끔 내 콘텐츠가 원본 콘텐츠로 인정받아 최고 순위를 받기도 했다. 다른 사이트와 콘텐츠의 경우 일반적으로 EzineArticles와 같은 권위 있는 사이트에 이어 2위를 차지했습니다. 따라서 다음과 같은 결론을 내려야 합니다.

콘텐츠를 신디케이트할 때 다음과 같은 상황이 발생할 수 있습니다.

귀하의 고유한 원본 콘텐츠 소스(즉, 귀하의 웹사이트)가 해당 콘텐츠에 대해 사실상 색인이 제거되도록 합니다.
귀하의 콘텐츠와 관련된 검색어에 대해 귀하의 사이트가 높은 순위를 차지하도록 하십시오. 그러나 가장 높은 순위는 아닙니다.
귀하의 사이트가 귀하의 콘텐츠에 대해 가장 높은 순위를 차지하도록 하십시오.

글쎄, 그것은 거의 모든 기반을 다룹니다. 그렇지 않습니까? 이것은 내가 내 자신의 사이트를 볼 때 관찰한 모든 결과와 해당 사이트에서 시작된 기사를 신디케이트한 결과입니다. 기본적으로 저는 Google이 항상 옳은 것은 아니라는 결론을 내릴 수 있습니다. 그리고 구글은 어떤 종류의 일관성도 갖고 싶어하지 않습니다. 그들이 원하는 마지막 것은 우리 SEO가 알고리즘을 완전히 파악하는 것입니다. 왜냐하면 일단 발생하면 사람들이 모든 것을 지옥으로 조작하여 검색 결과의 무결성이 파괴되기 때문입니다.

고무적인 부분은 신디케이트된 콘텐츠의 백링크가 타겟 키워드에 대한 내 사이트 순위에 확실히 도움이 된다는 것을 발견했을 때였습니다. 따라서 Google이 "중복"으로 분류한 콘텐츠에서 비롯된 백링크의 가치가 적어도 어느 정도 는 존재합니다.

따라서 문제는 남아 있습니다. 내 콘텐츠를 신디케이트해야 합니까?

이렇게 하면 얻을 수 있는 이점을 살펴보겠습니다.

콘텐츠 신디케이션의 이점

많은 사이트에서 백링크 얻기
트래픽이 많은 사이트로 도달 범위 및 브랜드 인지도 확장
신디케이트된 콘텐츠의 백링크에서 추천을 통해 직접 트래픽을 얻으십시오.
배포/신디케이션을 위해 완전히 새로운 콘텐츠를 작성하는 것(또는 기존 콘텐츠를 다시 작성하는 것)보다 백링크를 얻는 훨씬 저렴한 방법

콘텐츠 신디케이션의 단점

귀하가 신디케이트하는 사이트가 귀하의 사이트보다 더 높은 권한을 가지고 있다면 귀하가 Google의 조언을 따르고 콘텐츠의 원래 소스에 대한 백링크를 포함 하더라도 귀하의 콘텐츠에 대해 실제로 귀하보다 순위가 높을 수 있습니다.
Google은 귀하의 콘텐츠가 있는 URL을 나머지 중복 항목과 함께 그룹화하여 검색 엔진 결과 페이지에서 숨길 수 있습니다(효과적으로 색인 제거).

따라서 콘텐츠를 신디케이트하는 것은 위험합니다. Google이 귀하의 사이트가 콘텐츠의 원본이라고 결정하면 두 세계의 장점을 확실히 얻을 수 있습니다 . 따라서 검색 결과에서 귀하의 콘텐츠에 대한 보상을 제공하고 특정 키워드에 대한 전체 순위에 영향을 미치는 모든 유용한 백링크를 얻게 됩니다. 그러나 Google이 잘못 이해하면(그리고 생각과 달리 꽤 자주 발생) 관련 검색 엔진 쿼리에 대해 콘텐츠 순위가 지정되지 않을 위험이 있습니다.

다른 사람이 특정 웹사이트의 순위를 해칠 수 있는 다른 방법 은 없다고 항상 생각했기 때문에 이것이 정말 걱정스럽습니다. 이러한 결과를 분석한 후 내 주장에서 허점을 발견한 것 같아 두렵습니다. 다른 사람이 내 웹 사이트를 방문하여 내 모든 콘텐츠를 복사하여 웹에서 신디케이트하는 경우 내 콘텐츠가 신디케이트된 사이트가 실제로 내 사이트보다 순위가 더 높을 수 있습니다. Google은 여기와 Matt Cutts 비디오에서 이 문제를 해결하려고 합니다.

대부분의 경우 웹마스터는 웹마스터의 동의 없이 콘텐츠를 스크랩하고 재배포하는 제3자에게 영향을 미치지 않습니다. 우리는 이것이 영향을 받는 웹마스터의 잘못이 아니라는 것을 알고 있습니다. 즉, 여러 사이트에 동일한 콘텐츠가 표시되는 것 자체가 본질적으로 웹마스터 가이드라인 위반으로 간주되지 않는다는 것을 의미합니다. 이는 단순히 콘텐츠의 원본 소스를 결정하기 위한 추가 프로세스로 이어집니다. 대부분의 경우 원본 콘텐츠를 올바르게 식별할 수 있으므로 콘텐츠를 생성한 사이트에 부정적인 영향을 미치지 않기 때문에 Google이 매우 잘하는 것입니다.

다시 말하지만, 불행히도 제 경험에 따르면 제 콘텐츠가 신디케이트된 사이트보다 순위가 더 낮은 것을 반복적으로 목격했습니다. 따라서 Google은 콘텐츠의 원본 소스를 식별하는 데 능숙하다고 생각하지만 내 데이터는 그렇지 않다고 제안합니다. 시간이 지나면 Google이 알고리즘의 이러한 측면을 개선하기를 바랄 뿐입니다. 웹마스터로서 더 이상 할 수 있는 일은 없습니다. 대신, 신디케이션의 장점과 단점을 이해하고 Google이 콘텐츠 소유권을 잘못 식별하도록 하는 위험을 감수하는 것이 편안한지 여부를 결정하기만 하면 됩니다.

다음은 Google이 (이론적으로) 잘못된 정보를 얻을 위험을 최소화하기 위한 몇 가지 팁입니다.

항상 새 콘텐츠를 자신의 웹사이트에 게시한 다음 Google이 콘텐츠를 크롤링하고 색인을 생성할 때까지 다른 곳에서 신디케이트할 때까지 기다리십시오. 따옴표로 묶인 정확한 URL을 검색하여 특정 페이지의 색인이 생성되었는지 확인할 수 있습니다. 검색이 올바른 결과(즉, 0이 아닌 결과)를 반환하면 색인이 생성된 것입니다. 시도할 수 있는 또 다른 멋진 트릭은 콘텐츠에서 11-12개의 단어를 무작위로 선택하고 다시 따옴표로 묶은 해당 문자열을 검색하는 것입니다. 당신은 그것을 생각하지 않을 것이지만 특정 시퀀스의 10-12 단어가 웹의 다른 곳에 나타날 가능성은 극히 적습니다. 지금 시도해 보세요. 이 단락에서 임의의 문장을 복사하여 Google에 붙여넣고 따옴표로 묶고 얼마나 많은 결과를 얻을 수 있는지 확인하십시오. 이 기사가 신디케이트되지 않은 경우에만 결과적으로 이 URL을 찾을 수 있습니다(이는 또한 신디케이트할 때 어떤 사이트에서 귀하의 콘텐츠를 선택했는지 확인하는 좋은 방법입니다).
항상 원본 콘텐츠 소스 URL에 대한 신디케이트 버전의 백링크를 포함하십시오. Google은 이것이 올바른 방법이라고 말하지만 아직 확실한 것은 아닙니다. 그럼에도 불구하고 확실히 상처를 줄 수는 없습니다.

Vanessa의 제안을 받아 콘텐츠를 신디케이트하기 전에 다시 작성하는 것은 어떻습니까?

이렇게 하면 Google이 콘텐츠 소유권을 잘못 지정했을 때 본질적으로 색인이 제거되는 문제를 확실히 해결할 수 있지만 여기에도 몇 가지 주요 문제가 있습니다.

내용이 많으면 정말 비쌉니다. 당신이 가지고 있는 각 기사를 다시 작성하는 데 얼마나 많은 시간이 걸릴지 생각해 보십시오. 이 게시물만 해도 6,000 단어가 넘고 입력하는 데 몇 시간이 걸렸습니다! Human Rewriter와 같은 서비스에 재작성을 아웃소싱할 수 있지만 500단어당 약 $4의 비용이 들지만(SEO 및 링크 구축 비용보다 적음) 비용이 중복될 가능성이 높습니다. 콘텐츠가 많으면 비용이 많이 들 수 있습니다.
귀하는 여전히 원본 콘텐츠와 동일한 키워드를 주제로 주제별로 콘텐츠를 배포하고 있으므로, 특히 EzineArticles와 같은 높은 권위의 사이트에서 관련 검색어에 대해 다시 작성된 콘텐츠가 여전히 원본 콘텐츠보다 순위가 높다고 생각하는 것은 무리가 아닙니다.

동일한 도메인의 중복 콘텐츠

마지막 단어는 정말 노골적으로 동일한 도메인 내에서의 URL 톤에서 콘텐츠를 복제하지 않는 한, 걱정할 필요 없다,는 것이다. 복제된 콘텐츠가 있는 URL 중 하나가 색인화되고 해당 URL 클러스터의 "대표"로 선택됩니다. 사용자가 검색 엔진에서 검색 쿼리를 수행할 때 해당 콘텐츠의 특정 부분은 관련 쿼리에 대한 결과로 표시되지만 속임수 클러스터의 다른 URL은 표시되지 않습니다. 간단합니다.

그러나 동전의 다른 면은 다른 도메인에 걸쳐 중복된 콘텐츠입니다. 그리고 그것은 완전히 다른 괴물입니다. 문제를 해결할 준비가 되셨습니까? 여기 우리가 간다.

기존의 "중복 콘텐츠"

Traditional “Duplicate Content”

기존의 중복 콘텐츠는 문구를 들으면 직관적으로 떠오르는 콘텐츠 유형입니다. 웹의 다른 곳(일반적으로 자신의 사이트)에 존재하는 콘텐츠와 동일하거나 매우 유사한 콘텐츠입니다. 사이트에서 의도적으로 이 콘텐츠를 복제하는 데에는 몇 가지 이유가 있습니다.

사이트가 더 업데이트된 것처럼 보이도록 오래된 콘텐츠를 복제합니다.
귀하의 사이트에 더 많은 페이지를 추가하기 위해 자료를 계속해서 복사합니다.
자신의 것으로 유추할 수 있는 표절 자료.

이러한 모든 상황은 때로는 사용자에게, 때로는 Google에 기만적이며 대부분의 경우 웹마스터는 이러한 관행에서 멀리 떨어져 있음을 알고 있습니다. 만약 당신이 그것들에 관여한다면, 아마도 당신은 벌을 받을 자격이 있을 것입니다.

교활한 중복 콘텐츠

나는 그것을 "은밀한"중복 콘텐츠라고 부릅니다. 왜냐하면 그것이 당신에게 얼마나 쉽게 몰래 들어갈 수 있기 때문입니다. 중복 페이지를 만들 의도는 없지만 어쨌든 발생할 수 있습니다. 일반적으로 이것은 기술적인 문제나 무의식적인 복제로 인한 것입니다. 예를 들어:

https:// 및 https://에 대한 두 가지 버전의 웹사이트가 있는 경우 Google은 각 페이지의 두 버전을 별도로 색인화한 다음 해당 페이지를 중복 콘텐츠 인스턴스로 표시할 수 있습니다.
웹 페이지의 "프린터 친화적" 버전이 있는 경우 동일한 콘텐츠가 포함된 별도의 URL로 표시됩니다.
포럼 섹션과 같은 웹 페이지의 전체 및 모바일 수정 양식.

불행히도 이러한 경우의 대부분은 웹사이트를 구축하고 수정할 때 특별히 방지 조치를 취하지 않는 한 자연스럽게 발생할 수 있습니다.

"하지만 내 콘텐츠를 복사하지 않습니다"

이 평가에 대한 첫 번째 반응은 해고일 수 있습니다. 한 페이지에서 다른 페이지로 콘텐츠를 복사하지 않습니다. 사이트의 모든 페이지가 중복된 문구나 섹션 없이 원래 작성되었는지 확인하기 위해 세심한 주의를 기울입니다.

불행히도 여전히 위험이 있습니다. Google이 "중복 콘텐츠"로 등록하는 것이 사용자에게 항상 중복 콘텐츠로 표시되는 것은 아닙니다. 귀하의 페이지를 탐색하는 사용자는 반복되는 문구를 접하지 않을 수 있지만 Google은 귀하의 사이트를 크롤링하여 제목 태그에서 수십 개의 반복문을 찾을 수 있거나 동일한 페이지 콘텐츠를 호스팅하는 표준화되지 않은 URL이 여러 개 있을 수 있습니다. 어떤 형태의 중복 콘텐츠에 직접적인 영향을 미치지 않았다고 확신하더라도 사이트를 확인하는 것이 좋습니다.

중복 콘텐츠를 찾고 정리하는 방법

How to Find (and Clean) Duplicate Content

중복 콘텐츠를 수정하는 것은 비교적 쉽습니다. 그것을 찾는 것은 어려운 부분입니다. 위에서 언급했듯이 중복 콘텐츠는 감지하기 까다로울 수 있습니다. 사용자 경험 관점에서 반복 콘텐츠가 없다고 해서 검색 알고리즘 관점에서 반복 콘텐츠가 없는 것은 아닙니다.

첫 번째 단계는 수동 단계입니다. 사이트를 살펴보고 콘텐츠의 명백한 반복이 있는지 확인하십시오. 예를 들어, 각 서비스 페이지를 마무리하는 동일한 단락이 있습니까? 다시 작성하십시오. 새 게시물에서 이전 블로그 게시물의 섹션을 재사용했습니까? 구별하십시오. 이 초기 수동 스캔을 완료하면 중복된 콘텐츠의 숨겨진 인스턴스를 더 많이 찾는 데 사용할 수 있는 두 가지 주요 도구가 있습니다.

나만의 검색 수행

먼저 검색을 수행하여 Google의 눈으로 볼 수 있습니다. Site: 태그를 사용하여 검색을 귀하의 사이트로만 제한하고 intitle: 태그를 사용하여 특정 구문을 검색하십시오. 다음과 같이 보일 것입니다.

사이트:thisisyoursite.comintitle:"thisisyourtargetphrase"

이 검색은 주어진 사이트에서 선택한 구문과 관련된 모든 결과를 생성합니다. 동일한 결과가 여러 개 표시되면 콘텐츠 중복 문제가 있는 것입니다.

웹마스터 도구 확인

중복 콘텐츠를 확인하는 더 간단한 방법은 Google 웹마스터 도구를 사용하여 사이트를 크롤링하고 오류가 있으면 다시 보고하는 것입니다. 웹마스터 도구 계정을 만들고 확인했으면 검색 모양 탭으로 이동하여 "HTML 개선 사항"을 클릭하십시오. 여기에서 중복된 메타 설명 및 제목 태그 목록을 보고 다운로드할 수 있습니다. 이것들은 다시 작성하는 데 약간의 시간이 필요한 일반적이고 쉽게 수정할 수 있는 문제입니다.

중복 콘텐츠 샘플이 순위를 끌어내리는지 여부를 결정하려면 먼저 먼저 그러한 콘텐츠를 게시하려는 이유를 결정해야 합니다.

그것은 모두 당신의 목적에 달려 있습니다.

다른 곳에 게시된 콘텐츠를 사용하여 시스템을 손상시키는 것이 목표라면 처벌을 받을 수 있습니다. 그 목적은 명백히 기만적이며 검색 결과를 조작하기 위한 것입니다.

Google은 이러한 종류의 행동에 대해 다음과 같이 말합니다.

사이트의 중복 콘텐츠는 해당 사이트에 대한 조치의 근거가 되지 않습니다. 단, 중복 콘텐츠의 의도가 기만적이거나 검색 엔진 결과를 조작하는 것인 경우는 예외입니다.

카피스케이프

Copyscape

검색당 5센트의 비용으로 Copyscape에서 전체 조각을 수의하게 할 수 있습니다. 그러나 예산이 그러한 지출을 허용하지 않는 경우에도 Copyscape를 무료로 사용할 수 있습니다. 무료 Copyscape의 장점은 URL을 검색하기 위해 먼저 콘텐츠를 온라인에 게시해야 한다는 것입니다.

Copyscape의 검색 상자에 새로 게시된 콘텐츠의 URL을 복사하여 붙여넣습니다. Copyscape가 하는 일은 방금 게시한 콘텐츠의 복사본이 있는지 전체 인터웹을 스캔하는 것입니다.

Copyscape는 많은 게시자가 품질과 독창성을 확인하기 위해 크게 의존하는 신뢰할 수 있는 도구입니다. 같은 목적으로 사용할 수 있는 Copyscape와 매우 유사한 다른 도구(예: Plagiarism Detect 및 InterNIC)가 있습니다.

중복 콘텐츠를 확인하는 것은 매우 쉽고 간단합니다. 이것은 초보자에게 없어서는 안될 SEO 작업이지만 아무도 그것을 당연시해서는 안됩니다. 올바른 도구 세트를 사용하면 콘텐츠를 온라인에 게시하기 훨씬 전에 고유한 콘텐츠인지 확인할 수 있습니다.

그리고 독자들에게 고품질의 고유한 콘텐츠를 제공함으로써 귀하는 큰 가치를 제공하게 될 것입니다.

중복 콘텐츠를 정리하는 방법

사이트에서 중요한 중복 영역을 식별하면 이를 수정하기 위한 조치를 시작할 수 있습니다. 더 빨리 시정 조치를 취할수록 부정적인 영향으로부터 더 빨리 회복하기 시작할 것입니다. 다행히도 Google을 사용하면 사이트에서 중복 콘텐츠를 쉽게 찾고 수정할 수 있습니다. Google 웹마스터 도구에 로그인하면 '검색 모양'으로 이동한 다음 'HTML 개선사항'으로 이동합니다. 이렇게 하면 Google에서 중복된 것으로 감지한 페이지 목록을 생성할 수 있습니다. 이 목록이 있으면 다음 방법 중 하나를 사용하여 중복 오류를 하나씩 제거할 수 있습니다.

불필요한 중복을 제거하십시오. 첫 번째 단계는 가장 쉽고 명확하지만 인스턴스가 여러 개인 경우 시간이 많이 걸릴 수 있습니다. 중복을 해결하기 위해 콘텐츠를 다시 작성할 수 있는 모든 상황에서 그렇게 하십시오. 당신의 아이디어를 다른 말로 표현하고, 다른 프레이밍 장치를 사용하고, 처음부터 다시 쓰는 것을 두려워하지 마십시오.
상용구 . 긴 상용구 또는 저작권 표시는 여러 페이지에서 제거하고 대신 한 페이지에 배치해야 합니다. In cases where you would have to call your readers' attention to boilerplate or copyright at the bottom of each of your pages or posts, insert a link to the single special page instead.
Similar pages . There are cases when similar pages must be published, such as SEO for small and big businesses. Avoid publishing the same or similar information. Instead, expand on both services and make the information very specific to each business segment.
Noindex . People could be syndicating your content. If there's no way to avoid this, include a note at the bottom of each page of your content that asks users to include a “noindex” metatag on your syndicated content to prevent the duplicate content from being indexed by the search engines.
301 redirects . Let the search engine spiders know that a page has permanently moved by using 301 redirects. This also alerts the search engines to remove the old URL from their index and replace it with the new address.
Choosing only one URL . There might be several URLs you could use to point to your homepage, but you should choose only one. When choosing the best URL for your page, be sure to keep the users in mind. Make the URL user-friendly. This makes it easier not only for your users to find your page, but also for the search engines to index your site. Some duplicate content errors aren't due to actual duplicated content. They have to do with the URL structure that Google sees. For example, if you have one page that is associated with thisisyoursite.com/, thisisyoursite.com/?, and thisisyoursite.com/?sessionid=111, Google will see that page as repeating content three times. First, choose between www or non-www formatting and stick to that.
Always create unique content . Affiliates almost always fall victim to the convenience of ready-made content provided by merchants. If you are an affiliate, be sure to create unique content for the merchant products you are promoting. Don't just copy and paste.

결론

Let's do a brief recap. “Duplicate content” can refer to plagiarized material, copied content for the purposes of site inflation, but more importantly for the average user, pages that Google indexes twice. These duplicate forms of content are easy to track down with Google Webmaster Tools and fix with canonicalization adjustments or redirects, but if they go unnoticed, they can cumulatively bring your rankings down. Be proactive and scout for duplicate content at least once every few months—unless your site management process is flawless, it's probably that duplicate content will surface when you least expect it.

In the end, it all comes down to testing on a massive scale, getting solid data and making decisions based on that data. So here's what I'm going to do. I'm going to run a huge test and then update this post with my results. At the beginning of the post I mentioned that I am soon launching a massive Website with tons of unique content. I'm going to syndicate it all, completely unedited, as far and wide as I possibly can. As I do so, I'll monitor traffic sources to see what keywords people are using to find my content. Then, I'll replicate those keyword queries in Google and see where my site ranks in the search results. This should be the definitive test for the merits of syndication.

Thanks for sticking with me through this crazy post!

중복 콘텐츠: SEO 개선을 ​​위한 중복 콘텐츠 찾기 및 수정을 위한 최고의 가이드

소개