您在使用基於 Google 短語的索引嗎?

已發表: 2017-05-18

基於短語的索引可以幫助頁面變得與特定查詢詞更相關,因為頁面上存在與這些查詢相關的共現短語,以及使用相關短語指向該頁面的錨文本。 至少從 2004 年起,Google 就開始研究基於短語的索引。

當 Anna Lynne Patterson 撰寫論文為什麼編寫自己的搜索引擎很難檔案。 不久之後,她最終加入了谷歌,並開始在那裡申請基於詞組索引的專利。 我寫過她提出的一些專利:

2006 年 2 月 10 日 – 移過 pagerank:Google 正在查看短語?
05/19/2006 – 谷歌的目標是 1000 億頁?
12/29/2006 – 基於短語的信息檢索和垃圾郵件檢測
09/16/2008 – 谷歌基於短語的索引專利被授予
2009 年 3 月 15 日 – 您網站的熱門短語是什麼?
04/07/2010 – 短語化和重新審視谷歌的基於短語的索引
12/19/2011 – 10 項最重要的 SEO 專利,第 5 部分 – 基於短語的索引
08/05/2016 – 使用文檔和錨文本中的相關詞進行主題建模

我知道在博客文章的開頭有很多東西要扔給你。 如果您想了解有關此主題的更多信息,您將回到上面的列表並訪問其中一些較早的帖子。 我沒有告訴你 Anna Lynne Patterson 在某個時間點離開了谷歌,開始了 Cuil,谷歌的競爭對手不幸失敗了,並在 Cuil 關閉後被谷歌重新聘用,擔任谷歌搜索副總裁。

今天,Google 獲得了一項專利的延續專利,該專利最初於 2007 年提交,當它首次出現時,我確信 Google 採用了基於短語的索引。 這是因為基於短語的索引系統被描述為工作的方式似乎對索引像萬維網這樣龐大而復雜的東西很有意義。

該專利可在以下網址找到:

使用分層和分片短語發布列表的索引服務器架構
發明人:Pei Cao、Nadav Eiron、Soham Mazumdar、Anna L. Patterson、Russell Power 和 Yonatan Zunger
受讓人:谷歌公司
美國專利 9,652,483
授予日期:2017 年 5 月 16 日
提交時間:2015 年 11 月 23 日

抽象的:

信息檢索系統使用短語來索引、檢索、組織和描述文檔。 從文檔集合中提取短語。 使用短語發布列表,根據包含的短語對文檔進行索引。 短語發布列表存儲在索引服務器集群中。 短語發布列表可以分層並分成多個分區。 查詢中的短語是根據可能的短語來識別的。 根據短語創建基於短語的查詢計劃並對其進行優化以減少查詢處理和通信成本。 查詢調度的執行被管理以進一步減少或消除在各種索引服務器上的查詢處理操作。

我開始閱讀專利以了解搜索引擎的工作原理,這篇文章描述了倒排索引和由單個術語組成的發布列表,然後發布由有意義的短語組成的列表。 我上面關於“主題建模”列表中的最後一篇文章是關於 2012 年提交的一項基於短語的索引專利,標題為“將外部相關短語信息集成到基於短語的索引信息檢索系統中”,它討論了某些頁面上的短語可用於預測另一個短語的出現。 我強烈建議閱讀這項最新專利及其對基於短語的搜索引擎如何工作的描述。 嘗試設置基於短語的索引存在一些挑戰,正如專利在這裡告訴我們的那樣:

這裡的問題是傳統的系統索引文檔基於單個術語而不是概念。 概念通常用短語表達,例如“暗物質”、“美國總統”,或“在天氣條件下”或“一打”之類的成語。 充其量,一些現有系統將索引涉及預定的和最小的一組“已知”短語的文檔,這些短語通常由人工操作員選擇。 由於識別所有可能的短語(例如三個、四個或五個或更多)的感知計算和內存要求,通常避免索引短語。 例如,假設任何五個詞都可以構成一個短語,並且一個大型語料庫至少有 200,000 個唯一詞,那麼大約有 3.2.times.10.sup.26 個可能的詞組,顯然比任何現有系統可以存儲或否則以編程方式操作。 進一步的問題是,短語在使用方面不斷地進入和離開詞典,比發明新的單個詞的頻率要高得多。 技術、藝術、世界事件和法律總是會產生新的短語。 其他短語的使用會隨著時間的推移而減少。

一些現有的信息檢索系統試圖通過使用單個詞的共現模式來提供概念檢索。 在這些系統中,搜索一個詞,例如“總統”,也將檢索包含經常與“總統”一起出現的其他詞的文件,例如“White”和“House”。 雖然這種方法可能會產生在單個單詞級別具有概念相關文檔的搜索結果,但它通常不會捕獲共現短語本身之間的主題關係。

當您嘗試索引單個術語時,仍然會出現需要如此多的存儲空間來捕獲基於短語的索引系統上的所有內容的問題:

現有基於單個術語的索引系統的另一個問題在於服務器計算機訪問索引的安排。 在像互聯網這樣的大型語料庫的傳統索引系統中,索引包括多達 200,000 個獨特術語的發布列表。 每個術語發布列表可以包含成百上千個文檔,而且經常有數百萬個文檔。 索引通常在大量索引服務器之間劃分,其中每個索引服務器將包含一個索引,該索引包括所有唯一的術語,並且對於這些術語中的每一個,發布列表的某些部分。 在這種安排下,像這樣的典型索引系統可能有多達 1,000 個索引服務器。

當在這樣的索引系統中處理具有一定數量術語的給定查詢時,就必須為每個查詢訪問所有索引服務器。 因此,即使是簡單的單詞查詢也需要每個索引服務器(例如,1,000 個服務器)來確定它是否包含包含該詞的文檔。 因為所有的索引服務器都必須處理查詢,所以最慢的索引服務器的整體查詢處理時間是有限的。

這些是在開發基於短語的索引的想法時被認為存在的問題。 然而,如果這些問題能夠得到解決,那麼使用基於短語的索引就有潛在的好處。 該專利解釋瞭如何設置服務器以根據短語對網絡進行索引和搜索。

好處? 想像一下關於“棒球場”的頁面。 它很有可能包含諸如“投手的土墩”、“特許攤位”和“一壘”之類的短語。 這些短語可以被識別為與有關棒球場的頁面相關。 這些短語通常會同時出現在有關棒球場的排名靠前的頁面上。 該專利可能會對此處描述的短語進行評分:

一方面,信息檢索系統包括基於短語的索引系統和索引服務器架構。 從文檔集合中提取短語以識別用戶在語言中使用的真實短語,而不僅僅是單詞的組合。 通常,這是通過收集大量單詞序列來完成的,這些單詞序列是基於文檔中的結構特徵的候選短語。 每個候選短語都被賦予它出現的每個文檔的文檔短語分數,以反映其在文檔中的位置以及它獨立或與其他候選短語聯合出現的程度作為真實短語的可能性的方式在文件中。 此外,處理每個候選短語以識別其中的任何子短語,這些子短語被類似地評分。

然後將每個候選短語的文檔短語分數組合到它出現的文檔中以創建組合分數。 評估文檔短語分數和候選短語的組合分數以確定文檔集合對候選短語在實際短語中的使用的支持程度。 通常,在至少一個文檔強烈支持的情況下,會保留候選短語; 例如,其文檔短語分數的最大值超過預定閾值。 候選短語也被保留在它被適度支持的地方,如通過具有高於第二預定閾值的組合短語分數所指示的。 這表明候選短語具有足夠廣泛的用途,可以被認為是真正的短語。 最後,候選短語也被保留在它被廣泛支持的地方,如從一些文檔中獲得最低分數的短語所示。 例如,系統可以包含大約 100,000 到 200,000 個短語,這些短語將代表文檔中使用的真實短語,而不僅僅是單詞的組合。

外賣

使用這樣的方法來識別真實的短語、它們出現的頻率以及它們在文檔中的位置是很複雜的。 這種基於短語的索引系統涵蓋了一些不同的專利,包括根據某些短語在不同文檔中出現的頻率生成分數,以及作為指向文檔的錨文本以及使用基於短語的索引識別垃圾郵件。 自 2004 年以來已經開發了大量相關專利。它足夠複雜,沒有太多談論。 是的,您可以查找哪些短語經常出現在特定術語的頂級頁面上,這將提示您最好在頁面上包含哪些關於這些術語的有意義的短語。

我寫了關於谷歌的倒排索引並提到這篇文章是因為我寫的專利提供了網絡上短語的倒排索引,表明谷歌很可能正在跟踪這些短語。