基於知識的搜索中的相關實體分數

已發表: 2018-02-12

“完美的搜索引擎會準確地理解你的意思,並準確地給你回
你要。” 拉里·佩奇,搜索的工作原理

使用知識庫回答有關實體的查詢

三年前,我寫瞭如何在搜索中使用知識庫實體,介紹如何使用諸如“羅伯特·杜瓦爾扮演的角色說他在早上多麼喜歡凝固汽油彈的氣味的電影是什麼? 。” 搜索知名演員說著名台詞的電影是谷歌使用事實的一個例子,它可以從知識庫中學習,以便回答查詢。 它沒有用特色片段回答。 相反,它顯示了幾個視頻,然後是其他文檔也回答了這個問題。

上個月授予谷歌的一項專利還查看了知識圖譜中的信息,它可能從知識庫中學習以響應查詢。 不是作為精選片段,而是了解查詢中的實體和相關屬性的搜索結果。 這是一種語義搜索,它超越了理解同義詞和語義相關詞,了解搜索中涉及的事物的一些屬性(請記住,Google 知識圖是關於“事物,而不是字符串”,因此它不僅僅是匹配關鍵字從查詢到文檔上相同(或相關)的關鍵字。它還引入了相關實體分數的概念。

知識圖收集實體信息以回答查詢

是的,知識圖譜就像一本百科全書,但這不是它存在的原因。 它嘗試了解實體,以便在搜索結果中幫助回答有關它們的查詢

這項新專利告訴我們它如何使用有關特定實體的信息來回答查詢:

在一些實現方式中,一種計算機實現的方法包括使用至少一個處理器在知識圖中識別至少一個實體和通過各自的屬性與該至少一個實體相關的相關實體。 計算機實現的方法包括,對於相關實體中的每一個相應實體,使用至少一個處理器確定與相關實體相關聯的相關實體分數,該相應屬性涉及至少一個實體和相關實體中的相應一個。 該計算機實現的方法包括,對於每個相應的屬性,使用至少一個處理器,基於與該相應屬性相關聯的相關實體得分來生成屬性得分。 該計算機實現的方法包括使用至少一個處理器生成並基於所生成的屬性分數來存儲可排序屬性的數據結構,其中該數據結構用於響應於查詢提供排序的搜索結果。

如果你問谷歌一個問題,比如“George Washington 是哪裡的測量師?” 搜索引擎提供了搜索結果,其中詳細列出了他在參軍之前擔任少年測量員的經歷。

一個叫華盛頓弗吉尼亞的小鎮(自稱第一個華盛頓)紀念這位 17 歲的少年,他在年輕時調查了周邊地區。

相關實體分數

這個專利的流程是怎樣的? 這就是知識圖使用相關實體分數幫助返回搜索結果的工作方式:

在一些實現方式中,一種系統包括數據結構,該數據結構包括知識圖和一個或多個處理器。 一個或多個處理器被配置為執行操作,包括在知識圖中識別至少一個實體和通過各自的屬性與該至少一個實體相關的相關實體。 一個或多個處理器被配置為執行操作,包括對於相關實體中的每一個相應實體,確定與相關實體相關聯的相關實體得分,該相關實體涉及至少一個實體和相關實體中的相應一個。 一個或多個處理器被配置為執行操作,包括針對每個相應屬性基於與該相應屬性相關聯的相關實體得分生成屬性得分。 一個或多個處理器被配置為執行操作,包括基於生成的屬性分數生成和存儲可排序屬性的數據結構,其中該數據結構用於響應於查詢提供排序的搜索結果。

新授予的專利是

根據排序的屬性提供搜索結果
發明人:李一鳴、顧振宇
受讓人:谷歌有限責任公司
美國專利 9,875,320
授予日期:2018 年 1 月 23 日
提交時間:2016 年 2 月 8 日

抽象的

一個實體可以通過一個或多個屬性與多個相關實體相關聯,並且該實體也可以與一個或多個實體類型相關聯。 用於提供排序結果的系統可以包括識別實體、相關實體和類型。 系統還可確定每個相應相關實體相對於實體的相關實體分數。 對於每個屬性,通過該屬性與實體相關的相關實體的相關實體分數被組合以生成屬性分數。 然後根據屬性分數對屬性進行排序。 可以針對與實體類型相關聯的屬性進行排序,並且可以提供排序的搜索結果作為感興趣的一個或多個實體類型的輸出。

搜索結果和精選片段

我們已經看到了一些查詢的答案,這些查詢提供了搜索結果和精選片段的組合,正如我在帖子中所寫的那樣 Google 是否會將他們的知識庫與他們的搜索引擎結合? 對於使用搜索結果、精選摘要或結構化摘要回答查詢,Google 並沒有表現出過多的偏好。

有時,回答有關電影的問題似乎非常合適。 我喜歡問地理問題,比如XXXX的首都是什麼? 在精選片段中顯示地圖,因為首都的位置可能是有用的信息。

沒有關於 Google 如何使用其知識圖來回答有關實體的問題的特定知識庫

目前還沒有知識庫可以告訴我們 Google 如何使用知識圖譜。 我們擁有的最接近的是像這樣的專利,其中包含大量信息。 本節包含豐富的概念和提示,說明 Google 如何處理有關屬性的信息:

一個特定實體可能與多種類型相關聯,也可能通過一個或多個屬性與多個其他實體相關。 如本文所用,實體是單一的、獨特的、明確定義的和可區分的事物或概念。 例如,實體可以是人、地點、項目、想法、主題、抽象概念、具體元素、其他合適的事物或其任意組合。 在一些實現中,搜索結果包括識別實體引用的結果。 如這裡所使用的,實體引用是指代實體的標識符,例如文本或其他信息。 例如,實體可能是喬治華盛頓的物理體現,而實體引用是引用喬治華盛頓的抽象概念。 在適當的情況下,基於上下文,將理解本文使用的術語實體可以對應於實體引用,並且本文使用的術語實體引用可以對應於實體。 在一些實現方式中,搜索系統可以識別與實體引用相關聯的實體類型。 實體類型可以是用於標識數據結構中的實體引用的分類或分類。 例如,實體引用“喬治華盛頓”可能與實體類型“美國總統”、“人員”和“軍官”相關聯。 屬性描述實體之間的關係,換言之,一個實體如何與另一個實體相關。 與實體關聯的最重要的屬性可能取決於其感興趣的類型。 例如,對於實體“湯姆漢克斯”,用戶可能希望搜索結果包括他的電影或其他關於他的表演的信息。 但是,對於實體“阿爾伯特·愛因斯坦”,用戶可能希望搜索結果包括他的理論、技術論文以及與他對物理學的貢獻相關的其他信息。 所公開的技術可用於確定重要屬性,並相應地提供用戶可能想要的搜索結果。

想了解更多有關如何在語義搜索中使用知識庫的見解嗎? 閱讀這項專利對您來說可能是值得的。 請記住,Google 將許多站點視為超越 Wikipedia 和 Wikidata 的有用知識庫。 它可能會將 IMDB 和雅虎財經等資源視為有關事實的有用信息。

為了說明這項專利,我決定讓喬治華盛頓作為一名測量員。 沒有多少人知道他十幾歲時就這樣做了! 這個職位也可能在他後來擔任的軍事指揮官和政治家等職位中發揮了重要作用。 專利中關於實體類型和理解圖表中信息的以下段落影響了我的選擇:

表示組織數據的節點可以包括在知識圖中。 這些在本文中可以被稱為實體類型節點。 如這裡所使用的,實體類型節點可以指知識圖中的節點,而實體類型可以指由實體類型節點表示的概念。 實體類型可以是實體的定義特徵。 例如,實體類型節點 Y 可以通過“是 A”邊或鏈接連接到實體節點 X,下面將進一步討論,這樣圖表示信息“實體 X 是類型 Y”。 例如,實體節點“喬治華盛頓”可能連接到實體類型節點“總統”。 一個實體節點可以連接多個實體類型節點,例如“喬治華盛頓”也可以連接實體類型節點“人”和實體類型節點“軍事指揮官”。

我建議通讀此專利並嘗試理解它。 它可能有助於關聯搜索引擎如何捕獲和返回有關屬性及其不同方面的查詢。 這是一種更加基於語義的搜索,考慮有關事物的信息以及它們如何相互關聯。 它與從查詢到文檔的文本字符串匹配無關。 相反,專注於了解實體、它們的類型、它們的屬性以及它們與其他實體的相關性。

我想看一部關於年輕的華盛頓調查弗吉尼亞山丘的電影。 我在谷歌上問,“有沒有一部關於喬治華盛頓作為測量員的電影?” 似乎有一部動畫故事開始於報導那些日子:喬治·華盛頓將軍

將來我們在創建內容時會使用相關的實體分數和屬性分數嗎?

相關實體分數和財產分數是否會成為未來需要考慮的重要事項? 該專利提供了有關搜索引擎如何使用它們的提示:

步驟606包括一個或多個處理器基於與屬性相關聯的相關實體分數為每個屬性生成屬性分數。 可以針對該屬性組合與每個特定屬性相關聯的相關實體分數。 例如,參考圖。 參照圖4,相關實體“阿甘正傳”、“大人物”和“拯救大兵瑞恩”的相關實體得分可以相加以給出屬性“電影”的總和,例如,0.8+0.8+0.8=2.4。 在進一步的示例中,相關實體分數可以組合為加權總和。 可以使用相關實體分數的任何合適組合來生成屬性分數。 在一些實現中,一個或多個類型可以是另一實體類型的子類型。 例如,參考圖5的數據結構550。 如圖5所示,類型“Actor”可以是實體類型“Person”的子類型,可以稱為相對於該子類型的父類型。 在一些這樣的實現中,對於父類型,每個子類型的每個屬性的屬性分數可以與父類型的相同屬性相加。 例如,參考圖5的數據結構550。 在圖 5 中,屬性“Movies acted in”包含在類型“Actor”和“Person”中,因此,實體類型“Actor”的屬性分數 9.0 可以匯總到實體類型“Person”的屬性分數 1.0。 ” 在合併子類型之後,一個或多個處理器可以重新歸一化、縮放、加權或以其他方式改變父類型內的分數。

讀完這篇可能會更有意義。 至少 3 年來,Google 一直在使用其知識圖譜來回答帶有搜索結果的搜索查詢。 他們對此也變得越來越複雜。 隨著 Google 嘗試新事物並對其顯示搜索結果的方式進行更多實驗,它可能會繼續發展。