問答解釋對缺失事實的估計
已發表: 2019-06-19谷歌會開始解釋搜索結果中的估算嗎?
我們已經看到,對於搜索者在 Google 搜索框中提出的問題,Google 顯示的答案數量有所增加。 Google 已經發表了關於想要回答此類問題的聲明,我在 When Google Started Showing Direct Answers 中寫道,其中指出了 2005 年的 Google 博客文章,並於 2011 年授予了 Google 專利,用於回答有關查詢的事實問題。
在 2017 年的 Alphabet 財務報表中,我們被告知谷歌想要開始回答問題,而不需要搜索者查看一堆文件來找到這些問題的答案:
我們不僅在搜索結果中顯示十個藍色鏈接,而且越來越能夠提供直接答案 - 即使您使用語音搜索說出您的問題 - 這可以讓您更快、更輕鬆、更自然地找到您要查找的內容.
有時,此類問題的答案來源可能是缺失的實體被詢問或包含有關某些實體的不正確事實。 一項新授予的谷歌專利告訴我們一些數據源存在的問題,可能會阻止它使用這些源回答問題:
知識的關係模型,例如基於圖形的數據存儲,可用於為搜索查詢提供答案。 這些模型以圖節點和節點之間的邊的形式描述現實世界的實體(人、地點、事物)和關於這些實體的事實。 雖然這樣的圖可能代表大量的事實,但即使是最大的圖也可能缺少數千萬個實體,或者某些實體的事實可能不正確。 例如,給定實體的日期或其他屬性通常會丟失。
該專利旨在通過基於相關事實(提供可解釋的估計)推斷答案來解決此類問題:
知識的關係模型中缺失的事實通常可以根據圖中的其他相關事實進行推斷。 例如,搜索系統可能會了解到,在 70% 的婚姻中,丈夫和妻子的年齡都在 5 歲以內。 使用這個分佈,系統可以高可信度地估計一個出生日期未知但妻子出生日期已知的男人最有可能在他妻子的 5 歲之內。 雖然此示例使用了一項支持證據(稱為特徵),但配偶的年齡、對缺失或不正確事實的估計通常更為複雜,並且可以基於多個甚至數百個此類特徵。 一些實現提供了一個搜索界面,該界面提供對缺失事實的估計以及對估計基礎的人類可讀的解釋。 例如,搜索系統可以使用多個特徵的聯合分佈來生成查詢所請求的信息的估計,而這些信息不能直接從數據圖中獲得。 每個特徵可能代表一個與缺失信息相關的事實。 系統可以針對特徵應用一組度量以確定哪些特徵和特徵組合強烈影響估計並且選擇少量特徵用於顯示給查詢請求者的解釋。 解釋中使用的特徵數量可能取決於特徵的強度或類型或其與其他特徵的非線性關係。 在一種實現中,系統可以使用模板來提供估計的人類可讀的解釋。
對缺失事實的估計將伴隨著對該估計基礎的人類可讀的解釋。 該專利指出使用聯合概率分佈來估計一些事實該解釋內置於該專利背後的過程中,我們被告知將包括它,以及作為查詢搜索結果的一部分的估計。 因此,當查詢某個特定男人的年齡,並且知道他妻子的出生日期時,我們可以根據她的出生日期估計他的出生日期:
在一個方面,一種計算機系統包括至少一個處理器和存儲數據圖和指令的存儲器,當由至少一個處理器執行時,這些指令使系統接收請求第一實體信息的查詢,並生成估計對於所請求的信息,使用來自數據圖中的已知信息,用於與數據圖中的第一個實體相關的第二個實體。 指令還可包括使系統根據用於確定估計的已知信息基於被認為對估計有影響的已知信息生成對估計的解釋的指令,並提供解釋和估計作為評估的一部分。查詢的搜索結果。 例如,當第一實體是人,第二實體是人的配偶時,已知信息可以包括配偶的年齡或生日。
我們被告知,當向搜索者提供此類估計時,這些答案有時可能會保留在數據圖中,這取決於已知信息的影響程度以及該信息的貢獻分數。
這種對缺失事實方法的解釋估計的優點
該專利告訴我們它認為使用此過程的優勢。
其中之一是解釋估計可以讓搜索者“對估計有一種理解的感覺,以及相信或不相信估計的基礎,從而增強用戶的搜索體驗。”
另一個是基於“有影響的特徵”以及“可以通過聯合分佈模型估計的特徵”進行估計,這意味著該系統不依賴於“手動輸入或維護的列表”。
關於解釋事實估計的專利是:
提供對缺失事實估計的解釋
發明人:Gal Chechik、Yaniv Leviathan、Ran El Manor、Yoav Tzur、Eyal Segalis、Efrat Farkash 和 Yossi Matias
受讓人:GOOGLE LLC
美國專利:10,318,540
授予日期:2019 年 6 月 11 日
提交時間:2016 年 12 月 29 日
抽象的
公開了用於解釋對從數據圖中缺失的信息的估計的系統和方法。 示例方法可以包括接收請求第一實體的信息的查詢並接收對該信息的估計,該估計基於聯合分佈模型的多個特徵。 該方法可以包括為多個特徵確定各自的貢獻分數,選擇具有最高貢獻分數的特徵的數量,使用所選擇的特徵數量生成對估計的解釋; 並提供解釋和估計作為查詢搜索結果的一部分。
其他缺失信息
該專利以出生日期為例,但也涵蓋了其他類型的信息。 它可以查看搜索記錄,嘗試了解人們過去可能請求過的內容,以及其數據圖中可能缺少的內容。
在一些實現方式中,模塊可以包括預測引擎。 預測引擎確定數據圖中缺少所請求的信息,並可以提供對缺失信息的估計。 所請求的信息可以在查詢中被請求或者可以被確定為查詢中經常請求的信息的類型。 例如,預測引擎可以分析搜索記錄以確定請求者過去經常請求哪些類型的信息查詢(例如,生日、配偶、歌曲或電影發行日期等)並使用這些信息來查找這些事實在數據圖中。 當然,預測引擎還可以包括其他尋找缺失事實的方法,例如使用實體類型來確定該實體類型的實體具有哪些屬性,並為該實體類型的實體尋找缺失的屬性。 例如,一個人實體可能有一個生日,因此預測引擎可能會尋找缺少生日的人等實體。
附加功能 用於預測出生日期。
該專利展示了其他類型的信息,可用於解釋對出生日期的估計。 這些可能包括:
- 配偶的年齡。
- 人的孩子的年齡。
- 大學畢業日期。
外賣
我不能聲稱已經看到任何估計並解釋了在將問題作為查詢提出時可能遺漏的事實,並期望得到文本答案。 我將密切關注其中之一。 我希望看到谷歌解釋對出生日期以外的其他事物的估計。

