什麼是 URL 規範化以及如何正確使用規範標籤?
已發表: 2015-12-17
谷歌絕對不是第一個出現在互聯網上的搜索引擎。 但谷歌以更好的方式做事,並提供了真正有用的結果。 從那天起,谷歌就一直沒有停止作為一家公司的擴張。
儘管對當今存在的所有搜索引擎都進行了 SEO,但處理 Internet 上大部分流量的主要搜索引擎是 Google。 每當我們談論 SEO 時,人們都會自然而然地認為我們在談論為 Google 優化網站。
談到 SEO,我們需要檢查許多因素,包括現場和異地。 但是如果你的站內搜索引擎優化不達標,無論你的站外搜索引擎優化做得多好,都不會得到預期的結果。
我正在檢查我正在做 SEO 的網站之一,我發現該網站存在一些與規範化相關的嚴重問題。 我立即解決了這些問題,但也決定寫一篇文章來解釋規範化的含義以及如何正確執行網站的規範化。
什麼是 URL 規範化?
規範化這個術語可能很難理解。 讓我試著用簡單的術語來解釋這一點。
假設一個網站有兩個 URL:
- http://thewebpage.org
- http://www.thewebpage.org
這兩個頁面都顯示內容,並且這些頁面都不會重定向到其中任何一個頁面。 這可能會導致 Google 出現重複內容問題,您可能會面臨處罰。
讓我們再看一個例子。 網站上有兩個 URL 導致相同的頁面分辨率。
- http://thewebpage.org
- http://thewebpage.org/index.php
如果這兩個網頁顯示相同的結果,那麼這也可能導致問題!
您可能不太注意這個問題,但這可能會導致嚴重的重複內容處罰。 搜索引擎機器人的問題在於它們無法決定應該在索引中添加哪個版本的 URL。 如果兩個頁面正在解析相同的內容,他們只會假設一個副本是另一個副本,您的網站將受到懲罰。
如果您的網站在 2 個顯示相同內容的 URL 上打開,那麼您必須修復它。 您必須使用服務器設置,以便用戶無論打開時帶 www 還是不帶 www,站點都將在任一版本上打開。 通過這種方式,您可以修復規範化。
但是,有時您想在兩個 URL 上共享相同的內容,那麼您可以使用 rel=”canonical” 標籤讓搜索引擎知道哪個是原始內容,哪個是副本。 這可以使您免於重複內容處罰。
如何正確應用 URL 規範化?
現在讓我們檢查如何應用 URL 規範化。 我們不需要輸入代碼行來做到這一點。 一個簡單的 rel=”canonical” 標籤就足以應用規範化。
舉個例子,網站上有兩個 URL 在解析時產生相同的內容。 這兩個網址是:
- http://thewebpage.org
- http://thewebpage.org/index.php
HTML規範化
第二個 URL 產生與第一個 URL 相同的內容。 它們都顯示相同的頁面,因此您可以應用 rel=”canonical” 標籤,在這種情況下,指示帶有 index.php 的 URL 是第一個的規範 URL。
這就是它的應用方式。
<link rel=”canonical” href=”http://thewebpage.org/index.php”>
HTTP 標頭規範化
上述標記可用於 HTML 內容,但如果我們處理非 HTML 內容(如 PDF 文檔)怎麼辦? 在這些情況下,我們可以使用 HTTP Header Canonicalization。
> HTTP/1.1 200 OK
> 內容類型:應用程序/pdf
> 鏈接:<http://www.example.com/white-paper.html>; rel="規範"
> 內容長度:785710
您可以在 Google 的官方網站管理員博客上獲取有關基於 HTTP 標頭的規範化的更多信息。
什麼時候應該使用規範化?
現在您知道規範化的確切含義,您可以繼續討論該主題,看看什麼時候應該使用它。 因為除了我在上面的例子中提到的兩種情況之外,還有更多的情況。
以下是一些可以通過適當的 URL 規範化來防止的情況。
- 同一內容的不同網址
- 導致相同內容的各種不同類別和標籤
- 顯示相同內容但位於不同 URL/子域的移動網站
- 具有 HTTP 和 HTTPS URL 且都產生相同內容的 URL
- 各種端口
- 當網站有 www 和非 www 版本時
- 如果共享聯合內容
這些是我們可以應用 URL 規範化來避免我們的網站面臨任何類型的重複內容懲罰的一些主要條件。

這是您不應該執行 URL 規範化的時候!
在某些情況下我們不應該執行 URL 規範化,本文的這一部分旨在指定這些特定條件。 當涉及到 URL 規範化時,您也可以將這些視為錯誤。 讓我一一列舉。 我將嘗試以非常簡單的方式解釋其中的大部分內容。
跳過分頁規範化
如果您打算規範化分頁 URL,那麼您應該知道這是一個非常糟糕的主意。 您不應在網址的第二頁上添加規範化標記,因為 Google 根本不會將該網址編入索引。
多個規範標籤不好
如果一個網頁有多個 rel="canonical" 標籤,那麼它可能對您非常有害。 製作一個特定的標籤,並明確說明您喜歡哪一個。
點擊推文
我看到很多人像這樣應用 Canonical 標籤:
<link rel=”canonical” href=”index.php”>
這種規範化風格會導致很多錯誤。 您需要了解,您的規範標記越完整,對您和您的內容就越有利。
<link rel=”canonical” href=”http://thewebpage.org/index.php”>
上面的標記是應用規範化的更好方法。
點擊推文
本地化意味著針對網站內容進行定位和操作,以便根據瀏覽的區域為其提供服務。如果您真的想為全球受眾創建更好的網站,您可以閱讀本指南以創建多語言網站由谷歌。
移動版網站的規範化
僅使用規範標籤來區分主網站子域上的移動網站是不夠的。 Google 建議您同時使用 rel="alternate" 和 rel="canonical" 以說明該 URL 用於顯示網站的移動版本。
以下是您可以如何實施它:
> <html>
> <頭>
> <link rel="canonical" href="http://example.com/" >
> <link rel="alternate" href="http://m.example.com/" media="only screen and (max-width: 640px)">
> </頭>
> <身體>
不要在 <head> 之外使用 Canonical 標籤
搜索引擎機器人將完全忽略在網站的 <head> 之外設置的標籤,因此為了應用適當的規範標籤,您需要將它添加到 <head></head> 之間。
不要在一個網站上使用多個 Canonical 標籤
使用多個 Canonical 標籤毫無意義。 搜索引擎將忽略這兩個標籤,您將面臨奇怪的 SEO 行為和問題。 多個規範標籤 URL 有時是由插件故障引起的,因此您可能需要密切注意。
不要將規範 URL 指向具有非 200 狀態代碼的網站
具有 301 和 302 之類代碼的網站將強制搜索引擎抓取一個額外的 URL,這意味著他們需要一次抓取兩個 URL。 這加起來很大,很容易耗盡您的抓取預算。
狀態代碼為 404 的 URL 是完全浪費的爬行,搜索引擎將完全忽略您的標籤。
不要對 PageRank Sculpting 使用規範化
PageRank 不再是網站的公共實體或統計數據,但它仍被搜索引擎考慮。 如果您打算使用 Canonical 標籤進行 PageRank 雕刻並獲得更好的排名,請讓我明確說明它對您的網站弊大於利。
最後一句話
現場 SEO 的概念比您想像的要大得多。 您需要同時處理很多事情,還需要讓自己了解每天發生的變化。
這篇文章是一個展示如何在網站上應用規範 URL 的文章。 請記住,規範化是一個微妙的過程,如果以錯誤的方式進行,可能會損害您的網站。 檢查您的網站並確保正確執行規範化。
