關於網站和類別訪問持續時間的熊貓專利

已發表: 2017-07-28

搜索結果持續時間

幾個月前,也就是 6 月,我寫了一篇文章,點擊熊貓:基於重複點擊和訪問持續時間的高質量搜索結果。

在那篇博文中,我指出 Google 搜索工程師 Navneet Panda(Google 的 Panda 更新以他的名字命名)從事了幾項專注於高質量搜索結果的專利。 而且我不禁回顧了自 Panda 更新以來可能由 Panda 編寫的新專利。 我在 6 月份撰寫的專利是一項延續專利,它添加了有關搜索結果重複點擊和測量訪​​問這些頁面的持續時間的信息。 重複點擊和測量網站訪問的持續時間很有趣,讓我懷疑我是否能找到同樣值得研究的東西

他在其他網站上看過類似的信號嗎?

網站時長性能評分

2016 年 12 月 6 日來自 Navneet Panda 和 James A. Kunz 的一項專利,題為基於類別持續時間的網站持續時間性能,查看網站持續時間和網站部分的點擊次數。 專利描述為我們總結了該專利的工作原理。 第一部分看起來相當簡單:

處理索引、查詢日誌和導航日誌以生成站點數據。 站點數據描述網站並包括表徵用戶對網站特定資源的訪問以及每次訪問的持續時間的數據。 例如,訪問數據可以識別用戶對搜索結果網頁中包含的搜索結果的點擊或 URL 的直接輸入,並且對於每個選擇和輸入,測量從用戶請求資源以及用戶設備請求另一個資源的時間。

該專利使用“持續時間”一詞來表示訪問頁面可能需要的時間:

獲得的數據表徵用戶對資源的訪問以及這些訪問的持續時間。 在此數據中,可以通過多種方式中的任何一種來衡量訪問的持續時間。 例如,訪問的持續時間可以測量為用戶發起對資源的請求之間的時間,例如通過點擊資源的鏈接或在提供的輸入字段中輸入資源的資源定位符由運行在用戶設備上的應用程序或應用程序的附加組件,以及用戶發起對另一個資源的另一個請求的時間。 或者,持續時間可被測量為例如資源被應用程序完全呈現的時間與用戶發起對另一資源的另一請求的時間之間的時間。

該專利還著眼於可能與資源相關聯的類別或主題的權重:

搜索引擎外部的過程可以對資源和網站進行分類。 在一些實施方式中,資源被單獨分類,然後網站基於資源類別被分類。 每個資源和網站也可以屬於多個類別,並且每個類別可以通過類別權重來反映,該類別權重是類別與資源和/或網站的關聯強度的度量。 例如,包含關於職業運動員開設連鎖餐廳的新聞報導的資源可能具有分別反映新聞、體育和餐飲類別的中等相關性的類別權重。 相反,包含關於國際衝突的新聞報導的資源可能具有反映與國際新聞類別非常高的相關性的類別權重。

該專利談到根據網站上的不同類別測量會話長度和權衡持續時間。 我們被告知以下是持續時間分數的有趣用途:

持續時間性能分數可用於為搜索操作的資源和網站評分。 搜索操作可以包括對搜索結果的資源進行評分、對網站的索引進行優先排序、建議資源或網站、保護特定資源或網站免於降級、阻止特定資源或網站進行促銷或其他適當的搜索操作。

收集的有關訪問站點不同部分的持續時間信息可用於告訴搜索引擎更多有關該站點的信息。 我們被告知基於類別持續時間得分的網站持續時間績效得分:

對於網站所屬的多個類別中的每一個,該過程基於持續時間測量確定類別持續時間得分,每個類別持續時間得分與來自持續時間測量的時間持續時間成比例(206)。 在一些實施方式中,為了確定類別持續時間分數,為網站確定單個網站持續時間分數,然後使用持續時間分數為網站生成類別持續時間分數。 根據這些類別持續時間分數,確定網站的持續時間性能分數。

該過程根據一個或多個類別持續時間分數確定網站的持續時間性能分數(208)。 在一些實施方式中,持續時間性能分數與確定持續時間性能分數的一個或多個類別持續時間分數成比例(208)。 例如,持續時間性能分數可以基於網站的所有類別持續時間分數。 或者,持續時間性能分數可以基於網站的類別持續時間分數的適當子集。

降低噪音

谷歌有人經常提到的關於在排名中使用用戶行為數據的問題之一是,它通常是一個嘈雜的信號。 該專利討論瞭如何降低此類信號中的噪聲。 看到這樣的討論很有趣。 (不確定我是否曾在 Google 上看到過這樣的關於減少噪聲信號的列表。)以下是一些可以減少噪聲的方法:

過濾掉短點擊並減少其他噪聲因素——在某些實現中,在確定會話的持續時間時,最後訪問的持續時間被打折。 最後訪問的持續時間對應於響應於用戶設備從網站請求資源和從另一個不同網站請求資源而生成的持續時間測量。 例如,當選擇搜索結果然後用戶導航回搜索結果頁面時,或者當由於頁面加載延遲而延長對網站的單次訪問時,進行折扣以過濾掉“短點擊”。 打折上次訪問的持續時間的另一個原因是上次訪問的持續時間可能容易受到 2) 其他噪聲因素的影響,例如用戶離開計算機並顯示資源,然後一小時後回來並立即導航到另一個資源另一個網站的。 例如,當從上面的表 1 中扣除上次訪問的持續時間時,計算出的持續時間為 525 秒。

去除先前訪問的持續時間——在一些實現中,在確定會話的持續時間時添加先前訪問的持續時間。 先前訪問的持續時間對應於緊接在選擇第二網站上的第一資源之前在第一網站上訪問的最後資源上生成的持續時間測量。 例如,在上面的表1中,網站S0的資源R0的持續時間測量為160秒。 這是資源 R1-R7 的持續時間的先前訪問持續時間。 因此,當從上面的表 1 中扣除上次訪問的持續時間並考慮到先前訪問的持續時間時,計算出的持續時間為 685 秒。

來自先前訪問的尋址提升——在一些實現中,響應於用戶設備請求資源以響應資源地址的直接用戶輸入而生成的每個持續時間測量被提升。 這種直接輸入表示用戶對質量的積極評估,因此該資源的持續時間增加了。 boost值可以是固定值,也可以與用戶直接輸入地址的頻率或數量成正比。 例如,假設提升因子為 1.5,並且還假設還使用了上次訪問持續時間的折扣。 從上面的表 1 中,如果響應直接用戶輸入請求第一個資源,則計算出網站持續時間為 585 秒。

帶走

看到 Google 的一項查看用戶行為數據的專利很有趣,例如某人可能會在網站上點擊什麼以及他們可能會在該網站上花費多少時間。 看到谷歌關於如何減少來自用戶行為信號的噪音的討論也很有趣。 當這種討論的作者被命名為 Panda 時,這就值得重新審視。