基於大數據集的搜索排名模型專利更新

已發表: 2018-08-22

搜索排名模型和大數據集

根據與本發明的原理一致的一個方面,提供了一種用於對文檔進行排序的方法。 該方法可以包括創建預測文檔將被選擇的可能性的搜索排名模型並使用包括數千萬個實例的數據集來訓練該排名模型。

早在 2011 年,我寫了一篇關於 2007 年授予 Google 的專利,內容涉及構建一個使用大量數據的搜索排名模型,涉及查詢、Web 上的文檔和搜索者。 我寫的那個帖子是谷歌和像熊貓這樣的大規模數據模型,我當時寫的專利版本是基於大數據集的排名文檔。

該搜索排名模型專利已通過使用延續專利進行了第三次更新。 較早的兩項延續專利未獲授予,但最新的一項已獲授予,可在本段下方的鏈接中找到。 該描述似乎與 2003 年提交的原始版本相同。權利要求已被大量改寫,值得一看,因為新的內容體現了為這項專利付出了多少努力。 最新版本的搜索排名專利可在以下網址找到:

基於大數據集的文檔排序
發明人:Jeremy Bem、Georges R. Harik、Joshua L. Levenberg、Noam M. Shazeer 和 Simon Tong
受讓人:谷歌有限責任公司
美國專利:10,055,461
授予日期:2018 年 8 月 21 日
提交時間:2015 年 7 月 31 日

抽象的

系統至少部分地基於排序模型對文檔進行排序。 可以生成排序模型以預測文檔將被選擇的可能性。 系統可以接收搜索查詢並識別與搜索查詢相關的文檔。 然後,系統可以至少部分地基於排序模型對文檔進行排序,並從排序的文檔中形成搜索查詢的搜索結果。

搜索排名模型專利中更新的聲明

值得比較此搜索排名專利的最早版本與最新版本的權利要求,以了解它發生了多少變化。 通讀我之前發布的關於第一個版本的帖子也有助於理解它涵蓋的內容。 我在這裡包括每個權利要求的副本,因為它們與專利適用的內容形成鮮明對比。

在專利的原始版本中,第一項權利要求要短得多,而且根本沒有那麼詳細。 它告訴我們:

1. 一種計算機實現的方法,包括: 通過以下方式創建預測文檔被選擇的可能性的排序模型: 存儲與多個先前搜索相關聯的信息, 至少部分地基於以下因素確定選擇的先前概率與先前搜索相關聯的信息,並且至少部分地基於選擇的先驗概率來生成排名模型; 使用包含大約數千萬個實例的數據集訓練排名模型; 識別與搜索查詢相關的文件; 至少部分地基於排序模型對文檔進行評分; 從評分文檔形成搜索查詢的搜索結果; 並輸出搜索結果。

將該聲明與最新版本的搜索排名模型專利中的聲明進行比較,後者更為詳細:

主張的是:

1. 一種計算機實現的方法,包括: 由分佈式搜索系統接收訓練數據的集合,該集合包括多個訓練實例,當第一文檔在提供的搜索結果中被識別時,每個訓練實例識別由特定用戶選擇的相應第一文檔由搜索系統響應特定用戶發出的特定搜索查詢向特定用戶發送; 在分佈式搜索系統的多個計算設備上劃分訓練數據的集合; 由分佈式搜索系統生成排序模型,該模型產生以下可能性:特定用戶在被響應於特定用戶提交的特定搜索查詢而提供的一個或多個搜索結果識別時將選擇特定文檔,包括處理,多個計算設備中的每個計算設備,分配給該計算設備的訓練實例,包括:由計算設備選擇候選條件,其中該候選條件指定一個或多個用戶特徵、一個或多個查詢特徵的值,以及一個或多個文檔特徵,由計算設備向多個計算設備中的每個其他計算設備發送計算候選條件的本地統計數據的請求,由計算設備從一個計算設備中的每個其他計算設備接收或多個其他計算設備,由其他計算設備計算的候選條件的相應計算統計量副使用分配給另一計算設備的本地訓練實例的值,由計算設備根據從一個或多個其他計算設備接收的針對候選條件的計算統計來計算候選條件的權重; 由計算設備確定應將包括候選條件和計算出的權重的新規則添加到排序模型,並且作為響應,將新規則添加到排序模型並由計算設備向彼此提供多個計算設備中的計算設備,包括候選條件和計算出的權重的新規則應該被添加到排名模型的指示; 接收第一用戶提交的搜索查詢; 獲取滿足搜索查詢的多個搜索結果,其中每個搜索結果標識多個文檔中的相應文檔; 確定第一用戶的一個或多個特徵以及第一用戶提交的搜索查詢的一個或多個特徵; 使用第一用戶的一個或多個特徵和搜索查詢的一個或多個特徵作為排序模型的輸入,為搜索結果識別的每個文檔計算第一用戶在以下情況下選擇文檔的相應可能性響應搜索查詢而提供; 並且基於每個文檔的各自計算的似然性對多個搜索結果進行排序,每個文檔的計算的似然性是當第一用戶響應於搜索查詢而提供時將選擇該文檔的似然性。

該聲明告訴我們,搜索排名模型涉及有關用戶、查詢和排名的文檔的特徵。 這些只是新索賠中確定的一些特徵:

  • 第一個用戶的語言
  • 由第一個用戶發出的一個或多個先前查詢
  • 第一個用戶訪問特定文檔的次數
  • 查詢語言
  • 查詢的一個或多個術語
  • 特定用戶未選擇的一個或多個第二文檔
  • 表示按照響應於特定查詢而提供的搜索結果的順序所選擇的第一個文檔的位置的數據
  • 響應於特定搜索查詢,提供給特定用戶的搜索結果中排名高於所選第一個文檔的多個文檔
  • 第一個用戶的位置
  • 新版專利中還有一些其他權利要求變得更長,這使得它們值得查看和關注。

    該專利的第一個版本確實告訴我們,它正在關注許多不同的數據實例,這些數據被分解為關於搜索者、查詢和文檔如何不同的三元組。 正如我在關於原始專利的第一篇文章中所說:

    在第一個 Google 專利中,正在構建的模型查看了來自用戶的數據、他們使用的查詢以及他們可能選擇或未選擇的文檔的組合。 這些組合中的每一個都稱為“實例”。 一個實例是數據的“三元組”:(u, q, d),其中 u 是用戶信息,q 是來自用戶的查詢數據,d 是與從查詢數據返回的頁面相關的文檔信息。

    關於搜索排名模型專利更新的總結

    谷歌最近有一個大型核心更新,如穀歌確認廣泛的核心算法更新:事實與建議中所述。 我們知道谷歌在很長一段時間內一直在更新其核心搜索算法,每天可能更新 2 次。 我們不知道這個搜索排名模型專利的新版本中反映的更新何時可能已經應用,但它們可能是因為作為延續專利,它會理想地反映專利背後的過程的變化,這隨著時間的推移,本可以在算法上就位。 如果谷歌使用這種方法對頁面進行排名,它可能被視為核心搜索算法的一部分。 該專利考慮了涉及用戶查詢和文檔的大量數據來確定搜索排名。