集群搜索結果的眾包評估

已發表: 2019-07-10

一項專注於使用聚類和眾包評估方法對軟件應用程序進行排名以選擇最佳聚類搜索結果的 Google 專利剛剛獲得批准。 眾包評估將由 Mechanical Turk 等來源提供。

除了用於軟件應用程序之外,該方法還旨在應用於:

  • 在市場上銷售的產品
  • 網絡上可用的文件
  • 在線音樂商店中的歌曲
  • 畫廊中的圖像
  • 等等。

搜索結果聚類問題

使用集群搜索結果的原因是為了解決可能返回大量響應項的查詢。 我們被告知,自動聚類,一種算法生成的,並不總是產生高質量的聚類。 作為回應,專家對聚類結果的手動評估和細化可以提高搜索結果的質量,但也可能很慢並且不能擴展到大量查詢。 這就是該專利旨在解決的問題。

聚類搜索結果作為解決方案

該專利背後的過程涉及創建一個改進的眾包評估系統,並以可擴展的方式改進集群搜索結果。

它從系統使用各種聚類算法為查詢生成聚類集開始。

眾包評價

然後,這些聚集的集合將按隨機順序呈現給一組眾包工作人員。

聚類搜索結果

工作人員將與向工作人員呈現聚類結果集的用戶界面進行交互,以獨立於其他組接收來自這些工作人員對每個集群集的評估。 每個評估都側重於每個集群的質量,而不是將集群相互比較。

根據對該客戶的評估為每個集群生成一個分數,包括:

  • 給出的評級
  • 提供評級所花費的時間
  • 訪問的其他信息
  • 等等。

    該分數可用於基於跨多個工作人員響應的分數來確定哪個聚類算法為查詢生成最佳聚類集。

    這些不是使用 Google 的質量評估者指南評估搜索結果的評估者。 我從未見過那些人工評估者 o 通過諸如對搜索結果集群進行評級之類的任務。

    搜索結果聚類的細化

    除了對搜索結果集群進行評級外,該專利還告訴我們,這些眾包工作人員可以對已確定為最佳集群的更改和改進提出建議。 在眾包評估期間,工作人員可能會根據一系列細化任務提出更改建議。

    細化任務可以包括:

    • 合併兩個太相似的集群
    • 刪除似乎與其他集群不匹配的集群
    • 從集群中刪除實體/主題
    • 從集群中刪除特定的搜索項
    • 將實體或搜索項從一個集群移動到另一個集群

    我們還被告知:

    如果建議的細化滿足任務的一致閾值,則係統可以通過改變集群定義自動進行細化和/或可以向專家報告細化。

    集群集測試

    每個聚類集合可以代表不同的聚類算法。 一組隨機發送給眾包工作人員,他們對該集群進行評分。 將這些評級組合起來為這些集群生成分數。

    該方法還包括為具有最高聚類集分數的聚類集存儲聚類集定義,聚類集定義與查詢相關聯,並在接收到查詢請求後使用聚類集定義來啟動搜索項的顯示響應查詢。

    這種搜索結果聚類方法的優點

    這些實現可用於實現以下優點中的一個或多個。

    1. 系統提供了一種方法來確定哪種聚類算法為單個查詢生成最佳聚類查詢結果。 這為查看結果的用戶提供了更好的用戶體驗
    2. 評估和評級是可擴展的(例如,可以處理成百上千的查詢),因為它依賴於眾包任務而不是專家
    3. 該系統通過降低沒有在任務上花費足夠時間和/或沒有足夠專業知識(例如,熟悉查詢和搜索項目)的眾包工作人員的評級來最大化質量
    4. 該系統還通過將不同的集群集隨機呈現給不同的工作人員來最大限度地提高質量,以避免工作人員在呈現的第一組上花費更多時間的偏見
    5. 通過在評估整個集群集之前要求工作人員評估每個集群,系統鼓勵對每個集群進行評估
    6. 系統為每個集群提供最大數量的高質量或重要搜索項,以幫助眾包工作者評估集群集中集群之間的冗餘
    7. 系統促進對集群集的細化達成共識,例如合併集群集中的兩個集群,從集群集中刪除一個集群,或者從一個集群中刪除特定主題或搜索項,並且可以自動更改集群集定義當最少數量的工人推薦相同的改進時

    可以在以下位置找到搜索結果聚類專利:

    搜索集群的眾包評估和細化
    發明人:陳吉林、張賢; Sagar Jain、Lichan Hong 和 Ed Huai-Hsin Chi
    受讓人:GOOGLE LLC
    美國專利:10,331,681
    授予日期:2019 年 6 月 25 日
    提交時間:2016 年 4 月 11 日

    抽象的

    實現提供了一種改進的系統,用於基於搜索項的實體關聯來呈現搜索結果。 一種示例方法包括,對於多個眾包工作人員中的每一個,啟動向眾包工作人員顯示從多個集群集合中隨機選擇的第一集群集合。 每個聚類集表示應用於響應查詢的一組搜索項的不同聚類算法。 該方法還包括從眾包工作人員接收第一集群集的集群評級並基於集群評級計算第一集群集的集群集分數。 對多個集群集中的剩餘集群集重複此操作。 該方法還包括存儲最高得分聚類集的聚類集定義,將聚類集定義與查詢相關聯,以及使用該定義來顯示響應於該查詢的搜索項。

    眾包評估要點

    我發現這項專利很有趣,因為使用了人工評估人員,他們不對搜索結果進行排名,而是對搜索結果的最佳集群進行評級和優化。 這些集群基於不同的集群算法,專利並沒有告訴我們很多關於這些集群算法如何工作的信息。 您可能在 Google 的搜索結果中看到聚類的地方是 Google 新聞,其中新聞文章按主題和地理分組,最具代表性的結果通常是每個聚類中排名最高的。

    不是主題專家對集群進行評級,而是使用眾包評估方法。 這可能會節省時間,並且評估人員可以對大量搜索結果集群進行評分和細化。 這讓我想知道網頁如何能夠作為集群的代表脫穎而出。

    詳細【首頁】