谷歌如何將圖像與搜索結果相關聯
已發表: 2017-04-07
如何為搜索結果選擇圖像
幾年前,谷歌的一些前員工(至少有一位已經回來了)創辦了一個名為 Cuil 的搜索引擎,剛開始時被稱為谷歌殺手。 它以在搜索結果中顯示圖像而聞名,但這些圖像並不總是經過精心挑選或準確的 – 請參閱此博客文章,了解 Cuil 對搜索結果中圖像的批評示例:與 Cuil 有什麼關係?。
谷歌多年來一直在新聞結果旁邊顯示圖片。 他們如何避免犯 Cuil 在他們的圖像上犯的那種錯誤? 本週,谷歌獲得了一項專利,其中討論了他們為使新聞結果中顯示的圖像更準確所做的一些事情。
在專利描述的頂部,他們告訴我們為什麼他們顯示帶有新聞結果的圖像,以及這樣做的挑戰之一是什麼:
在新聞文檔的情況下,用戶可能會發現查看與新聞文檔相關聯的圖像是有益的。 然而,新聞文檔常常包括多個圖像,其中一些可能與新聞文檔的主題無關。 這使得難以為新聞文檔自動選擇合適的圖像。
他們向我們總結了他們嘗試使用準確且有助於他們顯示的新結果的圖像的方法:
根據與本發明的原理一致的一個方面,一種方法包括識別與文檔相關聯的圖像、過濾圖像以創建一組候選圖像、檢測與候選圖像相關聯的標題、以及選擇候選圖像之一以進行關聯與基於檢測到的標題的文檔。
這項新授予的專利是:
新聞搜索的圖片選擇
發明人:Hong Zhou、Srdjan Mitrovic、Krishna Bharat、Michael Schmitt 和 Michael Curtiss
受讓人:谷歌公司
美國專利 9,613,061
授予日期:2017 年 4 月 4 日
提交時間:2014 年 5 月 28 日
抽象的
系統識別包括多個第一圖像的第一文檔,識別包括許多第二圖像的第二文檔,並且基於第一文檔和第二文檔之間的關係形成集群。 系統識別與第一圖像之一相關聯的第一說明,識別與第二圖像之一相關聯的第二說明,基於第一說明選擇第二圖像之一的第一圖像之一作為集群的代表圖像或第二個標題,並將代表圖像與集群相關聯。
新聞爬取單元
該專利告訴我們“新聞抓取單元”的行為,這聽起來有點謊言,如果它主要專注於抓取新聞文檔,我們可能會設想面向新聞的 Googlebot 可能會表現出怎樣的行為。 它可能會繼續專注於網絡爬行,這些爬行以它可能與新聞源相關聯的 URL 開始。 它將捕獲這些頁面上的圖像以包含在新聞報導中:
新聞爬取單元也可以根據提取的地址對圖像進行爬取,並存儲圖像以及與圖像相關的其他信息。 例如,新聞爬取單元可以獲得與圖像相關的時間信息和引用計數信息。 時間信息可用於識別“庫存圖像”(即,在與同一主題相關的多個新聞文檔中使用的圖像)。 庫存圖像可能有資格作為良好的候選圖像。 引用計數信息可用於識別由同一主機上的多個新聞文檔鏈接但與新聞文檔的主題不直接相關的圖像,例如專欄作家的圖像或與新聞源相關的圖標。 可以確定具有高參考計數的圖像不是好的候選圖像。
所以這讓我們開始了解谷歌如何選擇我們看到的伴隨新聞報導的圖像。 該專利繼續告訴我們它如何從可能不適合在搜索結果中顯示的圖像中分類出好的候選圖像,包括形狀和格式奇怪的圖像或與它們所在的源新聞文檔主題無關的圖像附近,例如與廣告或專欄作家相關的圖像。
該專利還告訴我們,低於特定尺寸或縱橫比(使其可能太高或太窄)的圖像也可能被排除為候選圖像(在新聞結果中顯示的候選圖像)。
我們還被告知,包含鏈接的圖像可能會被排除在候選之外,因為鏈接的圖像通常是廣告。
託管在新聞源以外的其他地方的圖像也可能被排除在候選圖像之外,因為它們可能是廣告,除非它們來自內容交付網絡。
圖片說明
在抓取圖片時,可以檢測到圖片的標題信息,因為這些信息可能是對圖片的良好描述,並判斷圖片是否可能與源新聞文檔的主題相關。
當在 HTML 標籤內(例如在表格單元格內)一起捕獲圖像和文本時,該文本可能與圖像相關聯。 同樣,當用作新聞結果時,替代文本可以與圖像相關聯並用作圖像的替代文本。
該專利告訴我們,可以分析圖像的替代文本中的一些測試,以查看它是否包含“毒藥”詞,例如可能識別圖像作者姓名的詞或與主題無關的詞。新聞文件。 如果替代文本不包含毒詞,則可以將其用作圖像的標題。
如果圖像位於 HTML 容器中,例如帶有文本的表格單元格,則該文本可能用作圖像的標題(或來自相鄰單元格的文本)。
如果共享 HTML 容器的文本超過特定閾值或體積太大,則可能不會將其視為標題,因為它可能是新聞文檔的一部分。
圖像分數
該專利告訴我們,每個候選圖像的圖像分數可能是基於某些因素創建的,例如:
- 圖片大小
- 與新聞文件標題的距離
- 圖像標題和新聞文檔質心之間的重疊
附加過濾器
我們還被告知,一些其他過濾器可用於決定來自新聞來源的圖像是否應在新聞結果中伴隨該新聞報導。 這些可能包括:
- 包含文字的圖片
- 看起來更像剪貼畫的圖像,而不是照片
- 都是相同顏色的圖像
- 其他標準
集群級圖像
新主題通常被分解為關於這些主題的文檔集群。
該專利告訴我們,圖像可能在一個集群中與主題相關聯,並且一個主題集群中排名最高的圖像可能是根據該集群中源新聞文檔的排名來確定的——新聞文檔在一個集群中的排名越高集群,“它的圖像越有可能代表集群。”
我們還被告知,可能會查看圖像標題中的單詞,並且圖像標題中的單詞出現在集群中文檔正文中的次數越多,該圖像與集群主題。
進一步的應用
我見過一些專利,其中接近專利末尾的一個或多個句子對他們來說可能比預期的更有意義。 在這個專利中有這樣一句話,它告訴我們:
此外,雖然在新聞搜索的上下文中進行了描述,但符合本發明原理的系統和方法可以應用於非新聞搜索,例如產品搜索。
考慮谷歌如何使用專利中描述的一些方法將關聯圖像應用到搜索結果,而不僅僅是新聞搜索,這聽起來似乎不是一個壞主意。 有點像 Cuil 是——但可能比 Cuil 更好。

