添加到您的樣式指南註釋文本:錨文本索引

已發表: 2019-02-22

運行風格指南

我在過去遇到並推薦的一件事是使用樣式指南。 我第一次聽到我在做 SEO 的大學的概念。 學院院長不喜歡一個詞組並堅持使用另一個詞組,這是我們網站的主要關鍵詞詞組之一。 最好有一個地方來跟踪類似的偏好,以及可能適用於網站的其他方法。 我已經為網站推薦了一份風格指南,推薦諸如將來在網站的 URL 中使用所有小寫字母之類的內容。 Go Fish Digital 沒有風格指南,但它有一個 wiki,其中包含有關我們在我們的站點和客戶站點上使用的特定技術的信息。

Google 更新了錨文本索引

錨文本索引

我已經在我們的 wiki 中添加了一些東西,還有一些東西要添加到它。 最新添加的內容將是我在剛剛發布的延續專利中看到的內容,更新了最初由搜索引擎於 2003 年提交的 Google 專利(我最初在 2007 年首次獲得授權時撰寫了該專利)。它涉及大多數做 SEO 的人都熟悉的 SEO 的一個方面,關於錨文本索引的使用。 我聽說谷歌過去曾使用過這種新方法,但直到最近,在這項新專利的權利要求部分,我才看到有關它的任何書面信息。 有問題的專利是谷歌大腦團隊負責人傑夫·迪恩的發明者。 他也是 Reasonable Surfer 專利的發明者之一,該專利更關注某人可能點擊鏈接的概率,用於確定 PageRank 權重

可以在此處找到有關錨文本索引的此更新專利的最新版本:

網絡爬蟲系統中的錨標記索引
發明人:Huican Zhu、Jeffrey Dean、Sanjay Ghemawat、Bwolen Po-Jen Yang 和 Anurag Acharya
受讓人:GOOGLE LLC
美國專利:10,210,256
授予時間:2019 年 2 月 19 日
提交時間:2016 年 4 月 1 日

抽象的

提供了一種用於索引鏈接文檔集合中的文檔的方法和系統。 訪問包括一對或多對源文檔和目標文檔的鏈接日誌。 生成包含一個或多個目標文檔到源文檔配對的排序錨映射。 排序後的錨映射中的配對基於目標文檔標識符進行排序。

錨文本附近的註釋文本 本專利的新內容

在此繼續專利的權利要求中,一個值得注意的新內容是在與鏈接的錨文本一定距離內提到了註釋文本,這可能會影響被鏈接到的頁面可能是關於什麼的。 我將在本專利的最新版本中包含其中一些引用註釋文本的新聲明:

主張的是:

1. 一種系統,包括: 至少一個處理器; 用於搜索文檔的索引,該索引包括與文檔相關的術語; 存儲器存儲指令,當被所述至少一個處理器執行時,執行的操作包括:通過網絡爬蟲獲取源文檔,在源文檔中識別註釋文本,註釋文本是在預定距離內的文本。到目標文檔和註釋文本的出站鏈接,包括至少一個術語,在索引中存儲術語和源文檔之間的關聯,存儲在索引中,響應於識別註釋文本,術語和目標之間的關聯文檔,識別,響應於接收包括與索引中的術語相關聯的術語、源文檔和目標文檔的查詢,響應於識別關聯,包括響應文檔列表中的源文檔和目標文檔到查詢,並返迴響應查詢的文檔列表作為查詢的搜索結果。

2.如權利要求1所述的系統,其中所述目標文檔尚未被爬行。

3.如權利要求1所述的系統,其特徵在於,所述出站鏈接是所述源文檔中的錨標籤,並且所述註釋是與所述錨標籤相關聯的錨文本。

4.如權利要求1所述的系統,還包括由索引器訪問的錨圖,所述錨圖包括至少一個標識:相應目標文檔; 多個源文件標識符,其中源文件包括到相應目標文件的出站鏈接; 以及針對每個源文檔標識符的至少一個註釋,該註釋包括從相應的源文檔中提取的文本段落,其中該文本段落在相應的出站鏈接的預定距離內

5.如權利要求4所述的系統,所述錨圖進一步識別至少一個註釋的屬性。

6.如權利要求1所述的系統,其特徵在於,所述註釋是來自源文檔的連續文本塊。

7.如權利要求1所述的系統,其特徵在於,所述註釋包括在所述源文檔中的錨標記之外的文本。

8.如權利要求1所述的系統,所述存儲器還存儲指令,所述指令在由所述至少一個處理器執行時執行包括: 計算所述目標文檔的查詢無關相關度量,其中所述查詢無關相關度量包括總和來自每個源文檔的部分與查詢無關的相關性度量貢獻,其中包括到目標文檔的出站鏈接。

此錨文本索引專利的最舊版本

早在 2007 年,我就在關於錨文本和不同爬網率的谷歌專利一文中寫到了最早版本的錨文本專利。 關於谷歌如何抓取網頁並以不同的速率將它們編入索引,以及處理不同類型的重定向,它提供了非常豐富的信息。

最新版本的專利包括一個更新的過程,我在 12 年前寫的帖子中沒有在早期版本中寫過。

由於我在錨文本附近包含了一些提及關聯文本的權利要求,因此我應該向您展示來自該專利最舊版本的權利要求,即 Web 爬蟲系統中的錨文本索引(2003 年 7 月 3 日提交)。 以下是該版本專利的前 8 項權利要求(將這些與最新版本的上述 8 項進行比較):

主張的是:

1.一種處理與鏈接文檔集合中的文檔相關的信息的方法,該方法包括:訪問鏈接日誌,該鏈接日誌包括多個鏈接記錄,每個鏈接記錄標識一個源文檔和一個或多個鏈接記錄的列表。源文檔中的一個或多個出站鏈接指向的更多目標文檔; 鏈接記錄包括所識別的源文檔的源文檔標識符和所識別的目標文檔列表的一個或多個目標文檔標識符; 其中鏈接記錄至少部分基於從鏈接文檔集合中的爬行文檔中提取的信息; 並且輸出對應於鏈接日誌並且包括多個錨記錄的排序錨映射,每個錨記錄標識各自的目標文檔和入站鏈接列表,入站鏈接列表標識包含到各自的鏈接的源文檔目標文件; 錨記錄包括各自的目標文檔標識符; 其中,至少部分地基於它們各自的目標文檔標識符在排序的錨映射中對多個錨記錄進行排序; 並且其中多個錨定記錄中的每個各自的目標文檔標識符對應於鏈接日誌中的一個或多個目標文檔標識符之一。

2.如權利要求1所述的方法,其特徵在於,排序後的錨圖中的每個錨記錄還包括相應的註釋列表。

3.如權利要求2所述的方法,其中包括在用於相應錨記錄的相應註釋列表中的每個註釋對應於標識相應源文檔的相應入站鏈接,該源文檔包含到相應目標文檔的鏈接。

4.如權利要求2所述的方法,其特徵在於,所述排序錨圖中的錨記錄的相應註釋列表中的至少一個條目包括文本段落和所述文本段落的屬性列表。

5.如權利要求4所述的方法,其特徵在於,所述文本段落是根據所述錨記錄的源文檔中的相應源文檔中的錨標記預定距離內的文本確定的。

6.如權利要求1所述的方法,還包括重複訪問和輸出以產生分層的一組已排序錨圖。

7.如權利要求6所述的方法,還包括,當已經滿足合併條件時,合併所述分層的已排序錨圖集合的子集以產生合併的錨圖; 其中合併的錨圖包括多個合併的錨記錄,每個合併的錨記錄對應於來自分層的已排序錨圖集合的子集中的至少一個錨記錄,其中合併的錨記錄在合併的錨圖中基於以下排序:它們各自的目標文檔標識符。

8.如權利要求1所述的方法,還包括輸出排序的鏈接圖,所述排序的鏈接圖包括多個鏈接圖記錄,每個鏈接圖記錄包括相關聯的鏈接記錄中的源文檔標識符和目標文檔標識符的列表。

將註釋文本引入錨文本索引

請注意該專利的新權利要求中對註釋文本的提及。 考慮到更新專利以反映該專利旨在保護的過程,並排除其他搜索引擎使用,這使得在錨文本附近添加註釋文本的想法對我來說非常有趣。 該專利沒有提供關於如何使用帶有鏈接的註釋文本的確切路線圖,但確實提供了足夠的信息,使其成為值得嘗試的有趣內容。

並添加到樣式指南中,供內容創建者在創建包含指向其他頁面的鏈接的內容時考慮使用,他們可能希望對包含在該註釋文本中的術語進行排名。

SEO 可能正在朝著涉及 Schema 和知識面板的更多語義過程發展,但我們也看到了最初在 2003 年提交專利的內容的更新,例如錨文本的使用也可能會更新。

很好的鏈接到你。