更新了基於 Google 短語的索引

已發表: 2018-06-06

谷歌今天更新了他們最重要的專利之一

基於短語的索引涵蓋哪些內容

當頁面涵蓋諸如“美國總統”之類的主題時,它很可能在該頁面上包含有意義的短語,可以用來預測頁面的內容,例如“白宮”或“玫瑰園” ”或“新聞發布會”或“國務卿”。 如果您在頁面上看到類似的短語,它們可能是有關該頁面主題的提示,它描述了 Google 基於短語的索引的工作原理。 這是一種可以說是使用語義主題來顯示頁面含義的方法。 它通過理解和索引出現在對某個術語排名很高的頁面上的有意義的短語來實現這一點。

僅僅因為谷歌擁有專利……更新了基於短語的索引

Matt Cutts 大約在 5 年前發布了這段視頻,他在視頻中告訴我們,僅僅因為谷歌擁有某些東西的專利; 這並不意味著他們使用它

但是,當 Google 繼續更新專利時,他們可能會使用它

我確實查看了 Google 的許多專利,可以提出一些論點,告訴我們他們可能正在使用基於短語的索引更新今天授予的專利。

1. 有超過 20 項相關專利授予 Anna Patterson 並分配給 Google,涉及基於短語的索引過程。

2. 該專利似乎是一項重要的專利,我曾將其稱為有史以來最重要的 10 項 SEO 專利之一:

10 項最重要的 SEO 專利,第 5 部分——基於短語的索引

3. 專利背後的流程最早是在 2004 年在專利局提交時提出的,他們一直在向流程中添加至少 20 項增加功能的專利,例如垃圾郵件對抗和代碼片段生成,以及告訴我們有關如何將其實施到 Google 索引中的詳細信息。 早在 2006 年,我就在這篇文章中首次寫到了該專利,Move over PageRank:Google 正在查看短語?

4、延續專利是專利的描述沒有改變,但專利中的權利要求已經更新的專利版本,以反映專利旨在保護的過程的變化。 申請專利的日期仍然是原始申請的日期,但排除其他人使用專利背後的過程的能力取決於新的權利要求。 從 2004 年到 2018 年,專利中的權利要求發生了重大變化。更改這些權利要求的一個重要原因是反映專利背後的實際流程(如果正在使用專利)。

值得將原始專利的前三個權利要求與今天授予的專利版本進行比較。 以下是原文中的前三個聲明:

1. 一種響應查詢在文檔集合中選擇文檔的方法,該方法包括: 接收查詢; 識別查詢中的多個詞組,其中至少一個詞組是多詞詞組; 識別所識別的短語中的至少一個的短語擴展,並且從包含來自包括查詢中的短語和短語擴展的集合中的一個短語的文檔集合中選擇文檔。

2.如權利要求1所述的方法,其中選擇文檔包括: 將識別出的短語的發布列表和識別出的短語的短語擴展的發布列表組合以形成組合發布列表,以及選擇出現在組合發布列表中的文檔並其他已識別短語的發布列表。

3.一種響應於查詢在文檔集合中選擇文檔的方法,該方法包括: 接收查詢; 在查詢中識別不完整的短語; 用短語擴展替換不完整的短語,並從包含短語擴展的文檔集合中選擇文檔。

與舊的聲明和隨後的新聲明的不同之處在於,它們提供了更多關於基於短語的索引現在如何對頁面進行排名的信息。

主張的是:

1. 一種計算機實現的方法,包括: 從 Internet 搜索引擎的基於短語的索引中獲取來自可通過 Internet 獲得的文檔集合的文檔列表,其中包含第一個短語,第一個短語與查詢相關; 對於列表中的每個文檔:使用存儲在文檔列表中每個文檔的索引中的相關短語信息,確定該文檔是否包括第一個短語的一個或多個相關短語,其中每個相關短語具有實際共現相關短語和文檔集合中的第一個短語的比率超過相關短語和文檔集合中的第一個短語的預期共現率; 根據為每個文檔確定的相關詞組數量對列表中的文檔進行排序,使得相關詞組較多的文檔比相關詞組較少的文檔排名更高; 並選擇至少一些排名最高的文檔以包含在查詢的結果中。

2.如權利要求1所述的方法,其中確定所述文檔是否包括所述第一短語的一個或多個相關短語包括: 訪問所述第一短語的發布列表,所述發布列表包括對於在所述發布列表中標識的每個文檔的指示文檔中存在的相關短語的數量。

3.如權利要求1所述的方法,其特徵在於,查詢詞出現頻率低但與第一短語相關的詞組有多個的文檔比查詢詞出現頻率較高但沒有相關詞組的文檔排名更高。

可以在以下位置找到基於短語的索引更新專利:

信息檢索系統中基於短語的搜索
發明人:Anna L. Patterson
受讓人:谷歌有限責任公司
美國專利:9,990,421
授予日期:2018 年 6 月 5 日
提交時間:2017 年 2 月 2 日

抽象的

信息檢索系統使用短語來索引、檢索、組織和描述文檔。 識別出預測文檔中其他短語存在的短語。 然後根據它們包含的短語對文檔進行索引。 還標識了相關短語和短語擴展。 查詢中的短語被識別並用於檢索和排列文檔。 短語還用於對搜索結果中的文檔進行聚類、創建文檔描述以及從搜索結果和索引中消除重複文檔。

大約一年前我寫了一篇文章,重點是基於短語的索引,你在使用谷歌基於短語的索引嗎?,其中包含一項專利,告訴我們谷歌的倒排索引如何更新以包含短語——這將是一個非常昂貴的承諾但將使這個更新的第一個基於短語的索引專利中的方法更有效地工作。

我還在 2016 年寫了一篇名為 Thematic Modeling Using Related Words in Documents and Anchor Text 的文章。 它告訴我們如何根據正文命中(頁面文本中的相關短語)和錨定命中(用作錨文本的相關短語,從生成相關短語的頁面指向的頁面)在搜索結果中提升頁面。 ) 在第一個基於階段的索引專利中更詳細地定義了排名,我們可能還會看到有關基於短語的索引的其他專利的更新。

基於短語的索引看起來是否足夠吸引您進行更多測試和研究?