根據作者分數重新排名內容(授予!)

已發表: 2018-12-11

我在 Twitter 上進行的一項關於內容排名的民意調查

我在 Twitter 上進行了一項民意調查,詢問如果原作者在自己的網站上發布了一篇博文,然後又將相同的帖子發佈到了在線雜誌,哪個版本的排名會更高? 我選擇了原作者的網站、在線雜誌和“視情況而定”的結果,並徵求解釋這些內容的評論。 我收到了一些很棒的評論,涵蓋了很多方面。

投票結果為 556 票如下:

關於什麼可能導致作者的帖子或在線雜誌的帖子排名更高,有很多意見,例如約翰·亞歷山大(John Alexander):

一些人建議理想情況下也應該使用跨域規範化,例如 Jonah Stein:

作為可能控制自己網站但無法控制此類在線雜誌網站的作者,可能很難讓在線雜誌指向您網站的規範鏈接元素。

我確實讓 Vikki Fraser 為我提供了一個例子,她的文章在非常相似的內容上超過了在線雜誌:

Cyrus Shepard 還問我鏈接反轉是否適用:

我的回答是,據我所知,谷歌不應用鏈接反轉。 當我寫關於谷歌試圖識別重複頁面的主要版本時,我探索了鏈接反轉。

有些人,比如 Martin McGarry,認為這取決於內容與每個發布地點的主題相關性:

或者正如 Joshua Levenson 指出的那樣,它可能依賴於首先發布的版本:

Peter McCarthy 的回答似乎符合我自己的經驗和最近發布的 Google 專利申請,我在這篇文章中包含了相關信息:

根據作者分數重新排列實體的結果

最近發布的一項專利申請告訴我們,當搜索結果涉及內容非常相似或基本相同時,它可以對搜索結果進行重新排序。 它通過說其中一個來自未知產生原始內容的實體來區分這些結果(它複製或重新分發由其他實體創作的原始內容。另一條內容與已知產生原始內容的第二個實體相關聯)原創內容。

在本專利申請中引用了一項臨時專利,該專利的標題非常有趣,根據該專利已整體併入其中。 該專利是 2012 年 5 月 17 日提交的美國臨時專利申請第 61/648,562 號,題為“用於確定實體是原始內容作者的可能性的系統和方法”(此鏈接指向該專利的 WIPO 申請。 )

無論相關性分數如何,原始作者的排名都更高

所以,這個作者評分專利申請告訴我們:

…有時希望將與作為原始內容作者的實體相關聯的文檔對應的搜索結果排名高於與與非原始內容作者的實體相關聯的文檔對應的搜索結果,即使這些文檔與實體相關聯不是原創內容的作者俱有更高的相關性分數。

這項原作者專利背後的算法涉及:

  • (i) 提交的內容,其中提交的內容被識別為由實體發布
  • (ii) 指向託管提交內容的資源上的位置的鏈接; 評估提交的內容是否以已知內容的索引表示,以確定提交的內容相對於已知內容是否是新的
  • 響應於評估,當提交的內容相對於已知內容是新的時,向搜索引擎發出請求以抓取和索引由與鏈接相關聯的資源託管的提交的內容,其中向搜索引擎的抓取請求和index 由與鏈接相關聯的資源託管的提交內容是響應於確定提交的內容被視為未在已知內容的索引中表示而發布的

該專利告訴我們,抓取新內容的請求將發送給搜索引擎的高優先級抓取工具,這是我第一次聽說 Google 專利中提到了其中一個。

該專利還提到使用“帶狀皰疹”來識別相似或基本相同的內容。 本文中有關帶狀皰疹的更多信息:識別和過濾近乎重複的文檔

看來原始作者專利將查看該實體創作的其他內容,這些內容可能與該內容的某個版本相關聯:

在一些實施例中,在向搜索引擎發出請求以對與鏈接相關聯的資源託管的提交內容進行爬行和索引之前,該方法包括基於對標識的其他提交內容的評估來確定該實體是原始內容的作者。由該實體發布,其中其他提交的識別為該實體發布的內容包含在已知內容中; 並且響應於確定提交的內容被視為未在已知內容的索引中表示並且確定實體是原創內容的作者。

這個專利申請聽起來像是谷歌通過收集他們寫的東西的帶狀皰疹來跟踪作者實體。

該專利還描述了一個驗證和註冊過程,作者可以使用該過程來驗證他或她是內容的作者並註冊為作者。

它還告訴我們,它可能會使用與內容相關聯的實體的標識符開始為內容添加時間戳,該實體包括至少一位內容作者或一位內容髮布者,或至少一個網站。

該專利還告訴我們,它可以通過確定每條內容的作者分數來確定這些內容是否相似。 作者分數還包括所涉及實體的引用分數,該分數查看引用該實體的內容的頻率。

基於實體是原始作者的重新排名如何運作

…第一個搜索結果排名高於第二個搜索結果; 確定第一文檔和第二文檔滿足相似性標準; 確定第二實體滿足關於第一實體的預定義作者差異; 並且響應於確定第二實體滿足關於第一實體的預定義作者差異,在排名的搜索結果中交換第二搜索結果和第一搜索結果以產生重新排名的搜索結果。

可以在以下位置找到作者評分專利申請:

(US20180341656) 對已排序搜索結果重新排序的系統和方法
發明人:Chung Tin Kwok、Lei Zhong、Zhihuan Qiu
刊號:20180341656
出版日期:2018 年 11 月 29 日
申請人:GOOGLE LLC

抽象的:

提出了一種系統、存儲至少一個程序的計算機可讀存儲介質和一種用於重新排列已排序搜索結果的計算機實現的方法。 得到滿足搜索查詢的排序搜索結果,排序搜索結果包括與第一實體相關聯的第一文檔對應的第一搜索結果和與第二實體相關聯的第二文檔對應的第二搜索結果,其中第一搜索結果的排名高於第二個搜索結果。 確定第一文檔和第二文檔滿足相似性標準。 確定第二實體滿足關於第一實體的預定義作者差異。 響應於確定第二實體滿足關於第一實體的預定義作者差異,排名的搜索結果中的第二搜索結果和第一搜索結果被交換以產生重新排名的搜索結果。

關於作者評分的一些結論

如果您想了解更多信息,該專利提供了許多值得花時間查看的細節。 例如,內容的作者被詳細說明如下:

例如,相應實體可以包括個人作者或內容(或貢獻者)的多個共同作者之一。 在一些實施例中,實體是生產原創或部分原創內容的商業組織。 在一些實施例中,實體是新聞機構。 在一些實現方式中,該實體包括至少一個內容髮布者。 例如,相應的實體可能是圖書出版商、期刊出版商、在線內容出版商! 和/或類似的。 在一些實施方式中,相應實體是至少一個網站上的內容的作者。 例如,相應實體可以向博客網站、出版商的網站(例如,新聞、雜誌等)和/或類似網站貢獻原始內容。 請注意,此類網站可能包括特定域內的內容子集。 例如,網站可以包括特定域(例如,頂級域example.com)中的內容。 在另一個示例中,網站包括特定域的子域(例如,子域 biogs.example.com)中的內容。 在另一個示例中,網站包括域的目錄中的內容(例如,www.example.com/johndoe/)。 在一些實施例中,網站包括多個域(例如,附屬網站的網絡)、至少一個域的多個子域和/或至少一個域的多個子目錄中的內容。 在一些實施例中,由實體創作的內容是博客帖子、社交網絡帖子或在線討論線程中的帖子。 在一些實施例中,由實體創作的內容是已發佈到可在互聯網上訪問的位置的任何內容,使得容易確定該實體發布了該內容。

該專利讓我想起了 Google+ 下的谷歌作者計劃,在該計劃中,您鏈接到您作為作者發表的地方,並在指向該站點的鏈接中使用 rel=“me”。

創建一個作者評分,其中包括一個引文評分,用於確定作者在 Web 上的其他地方被引用的頻率是很有趣的。 使用引用作為作者評分方式的想法讓我想起了在 PageRank 中使用引用的方法,如 The PageRank Citation Ranking:為 Web 帶來秩序中所述。 正如那篇論文的摘要告訴我們的那樣:

本文介紹了 PageRank,這是一種客觀、機械地對網頁進行評級的方法,可有效衡量人類對網頁的興趣和關注度。

添加於 201912 月 10 日- 該專利今天已在用於重新排列排名搜索結果的系統和方法中獲得授權。 它根據第一篇文章作者的原始作者評分和第二篇文章作者的較高作者評分在一組搜索結果中交換前兩個結果。