重複內容:查找和修復重複內容以改進 SEO 的終極指南

已發表: 2019-10-18

重複的內容很糟糕。 在您的網站上以全部或部分形式使用相同的內容會導致糟糕的用戶體驗,並在 Google 的搜索算法中觸發危險信號。 在 SEO 的舊時代,重複內容通常被用作在您的網站上獲取更多關鍵字和更多內容的廉價技巧,因此 Google 開發了一個系統來清除違反最佳實踐的垃圾郵件發送者。 今天,如果您被發現使用重複的內容,您的域權限可能會受到影響,您的關鍵字排名可能會下降。

幸運的是,谷歌對這個問題相當公平。 該公司明白,大多數重複內容問題並不是為了廉價提高排名的惡意企圖。 實際上,大多數重複內容的實例都是意外或被網站管理員忽視。 儘管如此,在您的網站上有太多重複的內容可能會造成破壞,運行測試以查看您的網站上是否有任何重複內容符合您的最大利益。

目錄

介紹

自從我開始涉足 SEO 以來,這個問題一直圍繞著論壇和博客。 在某個地方,有人認為在您網站的 A 頁面上與您網站的 B 頁面上具有相同的內容會導致您的網站在搜索引擎排名中受到懲罰。 這個想法開始滲透到網絡營銷社區,因為一群垃圾郵件發送者意識到,當他們擁有獲得大量搜索流量的一段內容(即一篇文章)時,他們可以用相同的內容,以便從搜索引擎中獲取更多流量。 顯然,在單個域內的數百個頁面上公然複製的同一篇文章是一種惡意嘗試,試圖在沒有實際增加任何價值的情況下獲得搜索引擎流量。 谷歌很快就接受了這種方法,並修正了它的算法來檢測重複內容並在搜索排名中只顯示它的一個版本。 參與這種公然活動的網站被取消索引,並在整個網絡營銷社區的論壇和博客上大喊大叫。 因此產生了對“重複內容懲罰”的恐懼。

然而,在絕大多數情況下,重複的內容是非惡意的,只是網站碰巧運行的任何 CMS(內容管理系統)的產物。 例如,WordPress(行業標準 CMS)會自動創建“類別”和“標籤”頁面,其中列出了特定類別或標籤內的所有博客文章。 這會在域中創建多個包含相同內容的 URL。

1) 谷歌可能會決定讓我“警告”一下,然後選擇不索引我 100 個重複帖子中的 99 個,而是保留其中一個索引。 注意:這並不意味著我網站的搜索排名會受到任何影響。

2) 谷歌可能會認為這是在玩弄系統的公然嘗試,以至於它從所有搜索結果中完全取消了我的整個網站的索引。 這意味著,即使您直接搜索“Example.com”,Google 也不會找到任何結果。

因此,這兩種情況之一肯定會發生。 它是哪一個取決於谷歌確定你的錯誤有多嚴重。 用谷歌自己的話來說:

網站上的重複內容不能作為對該網站採取行動的理由,除非重複內容的意圖似乎是具有欺騙性和操縱搜索引擎結果。 如果您的網站存在重複內容問題,並且您沒有遵循上面列出的建議,我們會很好地選擇要在我們的搜索結果中顯示的內容版本。

這種類型的非惡意複製相當普遍,特別是因為許多CMS在默認情況下不能很好地處理這種情況。 因此,當人們說擁有此類重複內容會影響您的網站時,並不是因為您可能會受到處罰; 這僅僅是因為網站和搜索引擎的工作方式。

大多數搜索引擎都追求一定程度的多樣性; 他們希望在搜索結果頁面上向您顯示十個不同的結果,而不是十個都具有相同內容的不同 URL。 為此,谷歌試圖過濾掉重複的文檔,讓用戶體驗到更少的冗餘。

那麼,當搜索引擎爬蟲檢測到重複內容時會發生什麼? (來自 https://searchengineland.com/search-illustrated-how-a-search-engine-determines-duplicate-content-13980)

Google 如何懲罰重複的內容

How Google Penalizes Duplicate Content

谷歌對其重複內容政策持相當開放的態度。 根據他們的報告,如果谷歌遇到同一網頁的兩個不同版本,或者與其他地方的網站內容明顯相似的內容,它會隨機選擇一個“規範”版本進行索引。 他們給出的例子是這樣的:假設您有一個標準網頁和同一個網頁的打印機友好版本,包含相同的內容。 Google 會隨機選擇這些頁面中的一個進行索引,而完全忽略另一個版本。 這並不意味著要受到懲罰,但確保 Google 正確編制索引和組織您的網站符合您的最佳利益。

當 Google 懷疑您的內容被惡意或操縱複製時,真正的麻煩就來了。 基本上,如果谷歌認為你的重複內容是為了欺騙他們的排名算法,你將面臨懲罰。 提前清除任何錯誤以防止您的網站出現這種命運,符合您的最大利益。

聯合:跨域重複內容

有時,相同的內容可以在不同的 URL 中逐字逐句地出現。 這方面的一些例子包括:

  • 新聞文章(想想美聯社)
  • 來自不同網站管理員的文章目錄中的相同文章
  • 網站管理員將相同的內容提交到不同的文章目錄
  • 在網絡上分發的新聞稿
  • 來自製造商的產品信息出現在不同的電子商務網站上

所有這些例子都源於內容聯合。 網絡上充滿了聯合內容。 一份新聞稿可以在數千個獨特的域中創建重複的內容。 但是搜索引擎努力為搜索者提供良好的用戶體驗,並且提供由相同內容組成的結果頁面不會讓很多人滿意。 那麼搜索引擎應該做什麼呢? 不知何故,它必須決定內容的哪個位置與向搜索者展示最相關。 那麼它是如何做到的呢? 直接來自大G:

當在不同站點上遇到此類重複內容時,我們會查看各種信號來確定哪個站點是原始站點,這通常效果很好。 這也意味著,如果您發現有人抓取您的內容,您不必非常擔心您的網站在 Google 上的存在會受到負面影響。

好吧,谷歌,我不同意。 不幸的是,我認為您不太擅長決定哪個站點是內容的發起者。 邁克爾格雷也沒有,他在他的博客文章“當谷歌獲取重複內容錯誤時”感嘆谷歌經常將他的原始內容歸因於他將其內容聯合到的其他網站。 根據邁克爾的說法:

然而問題在於谷歌,他們的排名算法恕我直言,對域信任和權威有太多偏見。

我同意邁克爾的看法。 在我的網絡營銷職業生涯的大部分時間裡,我將完整的文章整合到各種文章目錄中,以擴大我的內容的覆蓋範圍,同時還將其用作“SEO 燃料”,以獲得指向我網站的白帽反向鏈接。 根據 Google 的說法,只要您的聯合版本包含指向您原件的反向鏈接,這將有助於您在 Google 決定哪個是原件時的情況。 這裡有證據:

首先是一段由著名博主、前谷歌搜索引擎算法工程師馬特·卡茨 (Matt Cutts) 拍攝的視頻:

關於聯合的討論從大約 2:25 開始。 在 2:54,他說你可以告訴人們你是“內容的主人”,方法是包含一個從聯合作品返回到你的原始作品的鏈接。

更多證據:

如果您正在整合您的內容,但又想確保您的網站被標識為原始來源,那麼要求您的整合合作夥伴提供一個返回原始內容的鏈接會很有用。

最後:

謹慎整合:如果您在其他網站上整合您的內容,Google 將始終在每個給定搜索中顯示我們認為最適合用戶的版本,這可能是您喜歡的版本,也可能不是。 但是,確保聯合您的內容的每個站點都包含指向原始文章的鏈接是有幫助的。 您還可以要求使用您的聯合材料的人使用 noindex 元標記,以防止搜索引擎將他們的內容版本編入索引。

現在,我認為谷歌最後一句話的有趣之處在於,他們實際上承認他們選擇的內容可能不正確。 根據我的經驗,如果提供內容的網站相對年輕或 PageRank 較低,則很可能不會選擇正確的網站。 所以這就引出了下一個大問題:

我如何被列為我聯合的內容的原始來源?

How do I get ranked as the original source for the content I syndicate?

在過去的生活中,我將大量文章聯合到 EzineArticles 只是為了看到谷歌將我的內容的搜索結果更高,即使我完全確定谷歌在將我的內容提交給 Ezine 之前已在其原始位置索引了我的內容。 Vanessa Fox 之前曾在 Google 工作並構建了網站管理員中心,她試圖在她的博客文章“將您聯合的內容列為原始來源”中解決這個問題。

不幸的是,她得出的結論是,基本上,您無法確保自己做到。 她建議:

創建與您為自己的網站編寫的內容不同的內容版本以進行聯合。 此方法最適用於產品附屬提要等內容。 我認為它不適用於博客文章或其他類型的文章。 相反,您可以做一些事情,例如為聯合撰寫高級摘要文章,並為您自己的網站撰寫包含有關該主題的詳細信息的博客文章。

重寫一段內容不是我對聯合的定義。 那隻是用不同的詞重寫一篇文章並分發它。 無論如何,幾乎所有在網絡上傳播的信息都已經發佈在其他地方; 甚至這篇博文也是由我在互聯網上其他地方找到的大量信息組成的。 所以對我來說,寫一篇新文章用不同的詞說同樣的事情並將其分發給聯合合作夥伴並不是真正的原始文章聯合。 這是另一篇文章的聯合組織。 因此,我們仍然有一個問題,即聯合已出現在您網站上的完全相同的內容的結果:這樣做會產生什麼影響? 它會以任何方式損害我的排名嗎?

對我來說,這是圍繞重複內容最重要的問題。 在我開始分析之前,讓我們考慮一個重要的基本問題。

為什麼我要從我的網站在別處整合完全相同的內容?

互聯網實際上是在一種簡單的互讓經濟上運作的。 交換的兩種商品是獨特的內容反向鏈接。 獨特內容被定義為 Google 未識別為重複的內容。 關於 Google 在決定內容是否應被視為重複的問題上究竟劃清了哪些界限,有多種理論,但我聽說過的一個數字是 30%。 基本上,根據 30% 理論,如果谷歌發現超過 30% 的特定內容出現在互聯網的其他地方,它將被歸類為重複。 現在,我無法證明這個數字的準確性,所以就看它的價值吧。 還有各種重複內容檢測軟件,例如 CopyScape,旨在幫助網站管理員檢查他們的內容是否已被盜並跨其他域複製。 這也是一個很好的工具,可用於確定您的內容是否可能被 Google 視為重複。 這才是真正重要的。

但是我有點偏離了軌道,所以讓我們回到為什麼要聯合內容的討論上。 我提到了反向鏈接和獨特內容的互聯網經濟。 獨特的內容是可取的,因為它會被谷歌索引,可以說是該特定網站的另一個“帽子中的名字”實例。 基本上,網站編入索引的內容越多,它在相關查詢的 Google 搜索結果中返回的機會就越大。

但是反向鏈接呢? 反向鏈接只是從任何其他網站到您自己網站的鏈接。 當一個網站鏈接到另一個網站時,搜索引擎認為這是一次“投票”。 此投票用於確定 Google 搜索結果中的權威性和相關性。 事實上,人們認為反向鏈接是決定您的網站應如何針對給定查詢排名的最重要因素。 有很多因素會影響反向鏈接以及他們的“投票”的重要性,但我將在以後的博客文章中詳細介紹。 現在,您需要知道的是,反向鏈接很有價值,因為它們可以提高您在搜索引擎中的排名,這意味著您網站的流量會增加。

好的,現在我們已經介紹了 Web 微觀經濟的基本商品。 這很重要,因為當您聯合您的內容時,假設您在其中包含了一個鏈接回原始來源的反向鏈接,您將從您的內容聯合到的每個網站獲得一個反向鏈接。 很棒,對吧?

也許不吧。 第一個問題是 Google 對來自已知為重複內容的內容的反向鏈接的重視程度。 坦白說,我不知道。 一方面,如果您的唯一目標是獲得反向鏈接,很容易將內容聯合到一堆自動接受的博客中,這與您的內容質量或內容髮起者應該獲得多少獎勵無關。 另一方面,聯合也可以是特定內容質量的重要指標。 畢竟,如果它不是真的很棒,為什麼要聯合這麼多?

最後,谷歌可能有關於它如何回答這兩個問題的信號,但真正的答案可能只有編寫算法的軟件工程師知道。 許多人試圖通過參與內容“旋轉”來提高其聯合內容的價值,只要它不是經常被自動化軟件噴出的垃圾,這是完全合法的。 我將在稍後的帖子中更深入地討論內容旋轉。 目前,我們仍在嘗試回答這個問題,即按照您自己網站上顯示的內容整合內容是好主意還是壞主意。 經過仔細測試,我得出以下結論:

.

…….

*擊鼓*

……

*更多鼓聲*

……

也許。

我知道我知道。 那不是你想要的答案。 請允許我解釋一下。

我擁有 50 多個域,我喜歡對它們進行大量測試。 昨晚我花了幾個小時搜索我已經聯合到其他各種博客和目錄的內容。 我的發現既令人失望又令人鼓舞。

令人失望的部分是,在許多情況下,我的辛迪加內容的排名高於我自己的原創內容。 即使我自己的內容排名高於我的網站有一個到我網站的反向鏈接,內容的發起者,就像谷歌完全忽略了這個反向鏈接,仍然給其他網站更多的信任。 在某些情況下,我自己網站的內容版本無處可尋,顯然落入了 Google 的重複 URL 集群並從搜索結果中過濾掉了。 這意味著,通過聯合我的內容,實際上我自己的內容被取消了索引。

這幾乎是最糟糕的情況,但它發生了。 有時,至少。 這就是奇怪的部分; 有時,我的內容被認定為原創內容並獲得最高排名。 與其他網站和內容相比,它在高權威網站(通常是 EzineArticles)之後排名第二。 所以我必須得出以下結論:

當您聯合您的內容時,它可能:

  • 導致您自己的原始內容源(即您的網站)實際上針對該內容被取消索引
  • 使您的網站在與您的內容相關的查詢中排名很高,但不是最高的
  • 使您的網站在您的內容中排名最高

嗯,這幾乎涵蓋了所有的基礎,不是嗎? 這些是我在查看我自己的網站時觀察到的所有結果以及來自這些網站的聯合文章的結果。 基本上,我可以得出結論,谷歌並不總是正確的。 而且,Google 不喜歡做任何具有任何一致性的事情。 他們最不希望我們 SEO 完全弄清楚他們的算法,因為一旦發生這種情況,他們的搜索結果的完整性將被破壞,因為人們將它們全部操縱到地獄。

令人鼓舞的是,當我發現來自聯合內容的反向鏈接確實有助於我的網站在目標關鍵字上的排名時。 因此,來自谷歌標記為“重複”的內容的反向鏈接肯定至少有一些價值。

所以,問題仍然存在:我應該聯合我的內容嗎?

讓我們看看這樣做的好處:

聯合您的內容的好處

  • 從許多網站獲取反向鏈接
  • 將您的影響力和品牌知名度擴展到高訪問量的網站
  • 通過來自您聯合內容中的反向鏈接的推薦獲得直接流量
  • 獲得反向鏈接的方式比編寫用於分發/聯合的全新內容(或重寫現有內容)便宜得多

聯合您的內容的缺點

  • 即使您遵循 Google 的建議並包含指向內容原始來源的反向鏈接,如果您聯合的站點擁有比您自己的站點更高的權限,那麼這些站點實際上可能會在您自己的內容方面勝過您
  • Google 可能會將您的內容所在的 URL 與其餘的重複項分組在一起,將其從搜索引擎結果頁面中隱藏起來(有效地將其取消索引)

因此,聯合您的內容是有風險的。 如果 Google 確定您的網站是內容的發起者,那麼您絕對可以兩全其美從而獎勵您的內容在搜索結果中的最高位置,並獲得所有影響特定關鍵字整體排名的多汁反向鏈接。 但是,如果谷歌弄錯了(而且它確實經常與他們的想法相反),您就有可能讓您的內容永遠不會在相關搜索引擎查詢中排名。

這真的讓我擔心,因為我一直認為沒有其他可以做任何其他事情來損害特定網站的排名。 分析這些結果後,我擔心我發現了自己的論點中的漏洞; 如果其他人訪問了我的網站,複製了我的所有內容,並在網絡上進行了聯合,則我的內容聯合到的站點實際上可能會比我自己的站點排名更高。 Google 嘗試在此處以及 Matt Cutts 視頻中解決此問題:

在大多數情況下,網站管理員對未經網站管理員同意抓取和重新分發內容的第三方沒有影響。 我們意識到這不是受影響的網站管理員的錯,這反過來意味著在多個網站上顯示的相同內容本身並不被視為違反我們的網站管理員指南。 這只會導致進一步的過程,以確定內容的原始來源——這是 Google 非常擅長的,因為在大多數情況下,原始內容可以被正確識別,不會對內容的來源網站產生負面影響。

再次,不幸的是,我必須指出,根據我自己的經驗,我反复看到自己的內容排名比聯合網站的排名差。 因此,即使 Google 認為它擅長識別內容的原始來源,但我的數據表明並非如此。 隨著時間的推移,我們只能希望谷歌改進其算法的這方面; 作為網站管理員,我們當然無能為力。 相反,您只需要了解聯合的優缺點,並決定您是否願意承擔讓 Google 錯誤地識別您的內容所有權的風險。

這裡有一些技巧可以最大限度地降低谷歌出錯的風險(理論上):

  • 始終將新內容髮佈到您自己的網站,然後等待在其他地方聯合發布,直到 Google 抓取您的內容並將其編入索引。 您可以通過對您的確切 URL(帶引號)執行搜索查詢來檢查特定頁面是否已被編入索引。 如果搜索返回正確的結果(即不是零結果),則它已被索引。 您可以嘗試的另一個巧妙技巧是從您的內容中隨機選擇 11-12 個單詞,然後再次用引號搜索該字符串。 您不會想到,但是特定序列中的任何 10-12 個單詞出現在 Web 上的其他地方的可能性非常小。 立即嘗試 — 將本段中的一個隨機句子復制並粘貼到 Google 中,用引號將其括起來,然後看看您得到了多少結果。 結果,您可能只會找到此 URL,除非這篇文章已被聯合(這也是查看哪些站點在您聯合時獲取了您的內容的好方法)。
  • 始終在您的聯合版本中包含指向原始內容源 URL 的反向鏈接。 谷歌說這是正確的方法,但它仍然不是萬能的。 儘管如此,它肯定不會受到傷害。

在聯合之前採納 Vanessa 的建議並重新編寫您的內容怎麼樣?

這肯定會解決當 Google 錯誤地將內容所有權歸為內容所有權時可能使您自己的內容基本上被取消索引的問題,但它也存在一些主要問題:

  • 如果你有很多內容,那真的很貴。 想想你需要多少時間來重寫你擁有的每篇文章。 僅這篇文章就超過 6,000 字,我花了好幾個小時才打字! 您可以將重寫工作外包給像 Human Rewriter 這樣的服務,但每 500 個字的成本約為 4 美元(低於 SEO 和鏈接構建的成本),但這筆費用可能是多餘的。 如果您有很多內容,這可能會變得非常昂貴。
  • 您仍在分發以與原始內容相同的關鍵字為主題的內容,因此可以毫不誇張地說,重寫後的內容在相關搜索查詢中的排名仍會超過原始內容,尤其是在 EzineArticles 等高權威網站上。

同一域中的重複內容

最後一句話是,除非您真的在同一個域內的大量 URL 之間公然複製您的內容,否則沒有什麼可擔心的。 重複內容所在的 URL 之一將被編入索引並被選為該 URL 集群的“代表”。 當用戶在搜索引擎中執行搜索查詢時,該特定內容將作為相關查詢的結果顯示,而欺騙集群中的其他 URL 則不會顯示。 就那麼簡單。

然而,硬幣的另一面是跨不同域的重複內容。 這是一個完全不同的怪物。 準備好應對了嗎? 開始了。

傳統的“重複內容”

Traditional “Duplicate Content”

傳統的重複內容是當您聽到這句話時直觀地想到的內容類型。 它是與網絡上其他地方(通常是您自己的網站)上存在的內容相同或高度相似的內容。 網站有意複製此內容的原因有很多:

  • 複製舊內容,使您的網站看起來更更新。
  • 一遍又一遍地複製材料以向您的網站添加更多頁面。
  • 抄襲材料冒充你自己。

所有這些情況都是欺騙性的,有時對用戶來說,有時對谷歌來說,而且在大多數情況下,網站管理員知道遠離這些做法。 如果你參與其中,你可能應該受到懲罰。

偷偷摸摸的重複內容

我稱其為“偷偷摸摸”的重複內容,因為它很容易偷偷摸到你。 您無意創建重複的頁面,但無論如何它們都可能發生。 通常,這是由於技術故障或不知情的複製造成的; 例如:

  • 如果您的網站有 https:// 和 https:// 的兩個版本,Google 可能會分別為每個頁面的兩個版本編制索引,然後將這些頁面標記為重複內容的實例。
  • 如果您有網頁的“打印機友好”版本,它將顯示為具有相同內容的單獨 URL。
  • 完整和移動修改形式的網頁,如論壇部分。

不幸的是,大多數這些情況會在您構建和修改網站時自然出現,除非您特別採取了預防措施來阻止它。

“但我不會復制我的內容”

您對此評估的第一反應可能是被解僱。 您不會將您的內容從一個頁面複製到另一個頁面。 您非常小心,以確保您網站的每個頁面都是原創的,沒有重複的短語或部分。

不幸的是,您仍然存在風險。 Google 註冊為“重複內容”的內容並不總是用戶看到的重複內容。 瀏覽您網頁的用戶可能永遠不會遇到重複的詞組,但 Google 可能會抓取您的網站並在您的標題標籤中發現數十個重複,或者您可能有多個非規範化的網址託管相同的網頁內容。 即使您確信自己沒有直接影響某種形式的重複內容,也值得檢查您的網站以確保安全。

如何查找(和清理)重複內容

How to Find (and Clean) Duplicate Content

修復重複內容相對容易。 找到它是困難的部分。 就像我上面提到的那樣,重複內容可能很難檢測——僅僅因為從用戶體驗的角度來看你沒有任何重複的內容並不意味著從搜索算法的角度來看你沒有重複的內容。

您的第一步是手動操作; 瀏覽您的網站,看看是否有任何明顯的內容重複。 例如,您的每個服務頁面是否都有相同的段落結尾? 重寫它。 您是否在新文章中重複使用了過去博客文章的一部分? 做個區分。 完成此初始手動掃描後,您可以使用兩個主要工具來查找更多、更好的重複內容隱藏實例。

執行您自己的搜索

首先,您可以執行搜索以通過 Google 的眼睛查看。 使用 Site: 標籤將您的搜索限制在您的網站,然後使用 intitle: 標籤搜索特定短語。 它應該看起來像這樣:

站點:thisisyoursite.comintitle:“thisisyourtargetphrase”

此搜索將在您給定的網站上生成與您選擇的短語相關的所有結果。 如果您看到多個相同的結果,您就知道存在重複的內容問題。

檢查網站管理員工具

檢查重複內容的一種更簡單的方法是使用 Google 網站管理員工具抓取您的網站並報告任何錯誤。 創建並驗證您的網站站長工具帳戶後,前往“搜索外觀”標籤並點擊“HTML 改進”。 在這裡,您將能夠查看和下載重複元描述和標題標籤的列表。 這些是常見且易於修復的問題,只需要一點時間來重寫。

要確定重複內容樣本是否​​會拉低您的排名,首先您必須確定為什麼要發布此類內容。

這一切都歸結為你的目的。

如果您的目標是嘗試使用已在其他地方發布的內容來破壞系統,那麼您一定會受到懲罰。 其目的顯然具有欺騙性,旨在操縱搜索結果。

這就是谷歌對這種行為的看法:

網站上的重複內容不能作為對該網站採取行動的理由,除非重複內容的意圖似乎是具有欺騙性和操縱搜索引擎結果。

文案

Copyscape

每次搜索只需 5 美分,您就可以讓 Copyscape 為您審查整個作品。 但如果您的預算不允許這種支出,您仍然可以免費使用 Copyscape。 免費 Copyscape 的問題是您必須首先在線發佈內容才能檢索其 URL。

將您新發布的內容的 URL 複製並粘貼到 Copyscape 的搜索框中。 Copyscape 所做的是掃描整個互聯網以查找您剛剛發布的內容的任何副本。

Copyscape 是一種可靠的工具,許多出版商非常依賴它來檢查質量和原創性。 還有其他與 Copyscape 非常相似的工具可以用於相同的目的,例如 Plagiarism Detect 和 InterNIC。

檢查重複內容相當容易和簡單。 對於初學者來說,這是一項必不可少的 SEO 任務,但沒有人應該認為這是理所當然的。 使用正確的工具集,您可以輕鬆地確保您的內容在在線發布之前是獨一無二的。

通過為您的讀者提供高質量和獨特的內容,您將獲得巨大的價值。

如何清理重複內容

一旦您確定了站點上重複的關鍵區域,您就可以開始採取行動來糾正它們。 您越早採取糾正措施,您就會越早開始從負面影響中恢復過來。 幸運的是,Google 還可以讓您輕鬆查找和更正您網站上的重複內容。 當您登錄 Google 網站管理員工具時,前往“搜索外觀”,然後選擇“HTML 改進”。 這將允許您生成 Google 檢測為重複的所有頁面的列表。 有了這個列表後,您就可以開始使用以下任一方法一一消除重複錯誤:

  • 消除不必要的重複。 第一步是最簡單和最明顯的,但如果您有多個實例,它可能會很耗時。 在您可以重寫一段內容以解決重複的任何情況下,請執行此操作。 把你的想法用不同的詞表達出來,使用不同的框架工具,不要害怕從頭開始重寫。
  • 樣板。 Long boilerplates or copyright notices should be removed from various pages and placed on a single page instead. In cases where you would have to call your readers' attention to boilerplate or copyright at the bottom of each of your pages or posts, insert a link to the single special page instead.
  • Similar pages . There are cases when similar pages must be published, such as SEO for small and big businesses. Avoid publishing the same or similar information. Instead, expand on both services and make the information very specific to each business segment.
  • Noindex . People could be syndicating your content. If there's no way to avoid this, include a note at the bottom of each page of your content that asks users to include a “noindex” metatag on your syndicated content to prevent the duplicate content from being indexed by the search engines.
  • 301 redirects . Let the search engine spiders know that a page has permanently moved by using 301 redirects. This also alerts the search engines to remove the old URL from their index and replace it with the new address.
  • Choosing only one URL . There might be several URLs you could use to point to your homepage, but you should choose only one. When choosing the best URL for your page, be sure to keep the users in mind. Make the URL user-friendly. This makes it easier not only for your users to find your page, but also for the search engines to index your site. Some duplicate content errors aren't due to actual duplicated content. They have to do with the URL structure that Google sees. For example, if you have one page that is associated with thisisyoursite.com/, thisisyoursite.com/?, and thisisyoursite.com/?sessionid=111, Google will see that page as repeating content three times. First, choose between www or non-www formatting and stick to that.
  • Always create unique content . Affiliates almost always fall victim to the convenience of ready-made content provided by merchants. If you are an affiliate, be sure to create unique content for the merchant products you are promoting. Don't just copy and paste.

結論

Let's do a brief recap. “Duplicate content” can refer to plagiarized material, copied content for the purposes of site inflation, but more importantly for the average user, pages that Google indexes twice. These duplicate forms of content are easy to track down with Google Webmaster Tools and fix with canonicalization adjustments or redirects, but if they go unnoticed, they can cumulatively bring your rankings down. Be proactive and scout for duplicate content at least once every few months—unless your site management process is flawless, it's probably that duplicate content will surface when you least expect it.

In the end, it all comes down to testing on a massive scale, getting solid data and making decisions based on that data. So here's what I'm going to do. I'm going to run a huge test and then update this post with my results. At the beginning of the post I mentioned that I am soon launching a massive Website with tons of unique content. I'm going to syndicate it all, completely unedited, as far and wide as I possibly can. As I do so, I'll monitor traffic sources to see what keywords people are using to find my content. Then, I'll replicate those keyword queries in Google and see where my site ranks in the search results. This should be the definitive test for the merits of syndication.

Thanks for sticking with me through this crazy post!