根据作者分数重新排名内容(授予!)

已发表: 2018-12-11

我在 Twitter 上进行的一项关于内容排名的民意调查

我在 Twitter 上进行了一项民意调查,询问如果原作者在自己的网站上发布了一篇博文,然后又将相同的帖子发布到了在线杂志,哪个版本的排名会更高? 我选择了原作者的网站、在线杂志和“视情况而定”的结果,并征求解释这些内容的评论。 我收到了一些很棒的评论,涵盖了很多方面。

投票结果为 556 票如下:

关于什么可能导致作者的帖子或在线杂志的帖子排名更高,有很多意见,例如约翰·亚历山大(John Alexander):

一些人建议理想情况下也应该使用跨域规范化,例如 Jonah Stein:

作为可能控制自己网站但无法控制此类在线杂志网站的作者,可能很难让在线杂志指向您网站的规范链接元素。

我确实让 Vikki Fraser 为我提供了一个例子,她的文章在非常相似的内容上超过了在线杂志:

Cyrus Shepard 还问我链接反转是否适用:

我的回答是,据我所知,谷歌不应用链接反转。 当我写关于谷歌试图识别重复页面的主要版本时,我探索了链接反转。

有些人,比如 Martin McGarry,认为这取决于内容与每个发布地点的主题相关性:

或者正如 Joshua Levenson 指出的那样,它可能依赖于首先发布的版本:

Peter McCarthy 的回答似乎符合我自己的经验和最近发布的 Google 专利申请,我在这篇文章中包含了相关信息:

根据作者分数重新排列实体的结果

最近发布的一项专利申请告诉我们,当搜索结果涉及内容非常相似或基本相同时,它可以对搜索结果进行重新排序。 它通过说其中一个来自未知产生原始内容的实体来区分这些结果(它复制或重新分发由其他实体创作的原始内容。另一条内容与已知产生原始内容的第二个实体相关联)原创内容。

在本专利申请中引用了一项临时专利,该专利的标题非常有趣,根据该专利已整体并入其中。 该专利是 2012 年 5 月 17 日提交的美国临时专利申请第 61/648,562 号,题为“用于确定实体是原始内容作者的可能性的系统和方法”(此链接指向该专利的 WIPO 申请。 )

无论相关性分数如何,原始作者的排名都更高

所以,这个作者评分专利申请告诉我们:

…有时希望将与作为原始内容作者的实体相关联的文档对应的搜索结果排名高于与与非原始内容作者的实体相关联的文档对应的搜索结果,即使这些文档与实体相关联不是原创内容的作者具有更高的相关性分数。

这项原作者专利背后的算法涉及:

  • (i) 提交的内容,其中提交的内容被识别为由实体发布
  • (ii) 指向托管提交内容的资源上的位置的链接; 评估提交的内容是否以已知内容的索引表示,以确定提交的内容相对于已知内容是否是新的
  • 响应于评估,当提交的内容相对于已知内容是新的时,向搜索引擎发出请求以抓取和索引由与链接相关联的资源托管的提交的内容,其中向搜索引擎的抓取请求和index 由与链接相关联的资源托管的提交内容是响应于确定提交的内容被视为未在已知内容的索引中表示而发布的

该专利告诉我们,抓取新内容的请求将发送给搜索引擎的高优先级抓取工具,这是我第一次听说 Google 专利中提到了其中一个。

该专利还提到使用“带状疱疹”来识别相似或基本相同的内容。 本文中有关带状疱疹的更多信息:识别和过滤近乎重复的文档

看来原始作者专利将查看该实体创作的其他内容,这些内容可能与该内容的某个版本相关联:

在一些实施例中,在向搜索引擎发出请求以对与链接相关联的资源托管的提交内容进行爬行和索引之前,该方法包括基于对标识的其他提交内容的评估来确定该实体是原始内容的作者。由该实体发布,其中其他提交的识别为该实体发布的内容包含在已知内容中; 并且响应于确定提交的内容被视为未在已知内容的索引中表示并且确定实体是原创内容的作者。

这个专利申请听起来像是谷歌通过收集他们写的东西的带状疱疹来跟踪作者实体。

该专利还描述了一个验证和注册过程,作者可以使用该过程来验证他或她是内容的作者并注册为作者。

它还告诉我们,它可能会使用与内容相关联的实体的标识符开始为内容添加时间戳,该实体包括至少一位内容作者或一位内容发布者,或至少一个网站。

该专利还告诉我们,它可以通过确定每条内容的作者分数来确定这些内容是否相似。 作者分数还包括所涉及实体的引用分数,该分数查看引用该实体的内容的频率。

基于实体是原始作者的重新排名如何运作

…第一个搜索结果排名高于第二个搜索结果; 确定第一文档和第二文档满足相似性标准; 确定第二实体满足关于第一实体的预定义作者差异; 并且响应于确定第二实体满足关于第一实体的预定义作者差异,在排名的搜索结果中交换第二搜索结果和第一搜索结果以产生重新排名的搜索结果。

可以在以下位置找到作者评分专利申请:

(US20180341656) 对已排序搜索结果重新排序的系统和方法
发明人:Chung Tin Kwok、Lei Zhong、Zhihuan Qiu
刊号:20180341656
出版日期:2018 年 11 月 29 日
申请人:GOOGLE LLC

抽象的:

提出了一种系统、存储至少一个程序的计算机可读存储介质和一种用于重新排列已排序搜索结果的计算机实现的方法。 得到满足搜索查询的排序搜索结果,排序搜索结果包括与第一实体相关联的第一文档对应的第一搜索结果和与第二实体相关联的第二文档对应的第二搜索结果,其中第一搜索结果的排名高于第二个搜索结果。 确定第一文档和第二文档满足相似性标准。 确定第二实体满足关于第一实体的预定义作者差异。 响应于确定第二实体满足关于第一实体的预定义作者差异,排名的搜索结果中的第二搜索结果和第一搜索结果被交换以产生重新排名的搜索结果。

关于作者评分的一些结论

如果您想了解更多信息,该专利提供了许多值得花时间查看的细节。 例如,内容的作者被详细说明如下:

例如,相应实体可以包括个人作者或内容(或贡献者)的多个共同作者之一。 在一些实施例中,实体是生产原创或部分原创内容的商业组织。 在一些实施例中,实体是新闻机构。 在一些实现方式中,该实体包括至少一个内容发布者。 例如,相应的实体可能是图书出版商、期刊出版商、在线内容出版商! 和/或类似的。 在一些实施方式中,相应实体是至少一个网站上的内容的作者。 例如,相应实体可以向博客网站、出版商的网站(例如,新闻、杂志等)和/或类似网站贡献原始内容。 请注意,此类网站可能包括特定域内的内容子集。 例如,网站可以包括特定域(例如,顶级域example.com)中的内容。 在另一个示例中,网站包括特定域的子域(例如,子域 biogs.example.com)中的内容。 在另一个示例中,网站包括域的目录中的内容(例如,www.example.com/johndoe/)。 在一些实施例中,网站包括多个域(例如,附属网站的网络)、至少一个域的多个子域和/或至少一个域的多个子目录中的内容。 在一些实施例中,由实体创作的内容是博客帖子、社交网络帖子或在线讨论线程中的帖子。 在一些实施例中,由实体创作的内容是已发布到可在互联网上访问的位置的任何内容,使得容易确定该实体发布了该内容。

该专利让我想起了 Google+ 下的谷歌作者计划,在该计划中,您链接到您作为作者发表的地方,并在指向该站点的链接中使用 rel=“me”。

创建一个作者评分,其中包括一个引文评分,用于确定作者在 Web 上的其他地方被引用的频率是很有趣的。 使用引用作为作者评分方式的想法让我想起了在 PageRank 中使用引用的方法,如 The PageRank Citation Ranking:为 Web 带来秩序中所述。 正如那篇论文的摘要告诉我们的那样:

本文介绍了 PageRank,这是一种客观、机械地对网页进行评级的方法,可有效衡量人类对网页的兴趣和关注度。

添加于 201912 月 10 日- 该专利今天已在用于重新排列排名搜索结果的系统和方法中获得授权。 它根据第一篇文章作者的原始作者评分和第二篇文章作者的较高作者评分在一组搜索结果中交换前两个结果。