用户在 Google 上的点击率和搜索结果排名

已发表: 2019-03-19

Google 是否会查看用户点击率和用户行为来影响搜索排名?

谷歌发言人告诉我们谷歌在搜索排名中对页面进行排名时不包括用户点击率——它们太吵了,以及其他原因。 谷歌的一项新专利描述了用户点击率和其他用户行为信息如何影响搜索结果中的排名。 这项新专利并不是第一个保护 Google 流程免受其他可能考虑该流程的搜索引擎影响的专利。 在关于搜索者与搜索结果交互以及如何使用这些信息影响搜索排名的前几项专利之后,令人好奇的是此类信息将继续出现在 Google 专利中,并邀请仔细观察诸如用户点击之类的事情-通过利率。 特别是当所涉及的方法变得更加详细时。

该专利已使用延续专利更新了 3 次。 延续专利是更新专利的权利要求以反映专利背后流程变化的方法。 该专利告诉我们,搜索排名可能基于搜索者从搜索结果中查看页面所花费的时间长度,并且文档稍后可能会根据被查看的时间更长而排名更高:

本说明书中描述的主题的一个方面可以体现在计算机实现的方法中,该方法包括在返回文档结果的搜索查询的上下文内确定文档结果的相关性度量,该确定基于第一个数字与第二个数字有关,第一个数字对应于文档结果的较长视图,而第二个数字对应于文档结果的至少较短的视图; 将相关性度量输出到排名引擎,用于对与搜索查询对应的新搜索的搜索结果进行排名,包括文档结果。 第一数目可以包括文档结果的较长视图的数目,第二数目可以包括文档结果的总视图数目,并且确定可以包括将较长视图的数目除以总视图数目。

该方法还可以包括在返回文档结果的搜索查询的上下文内跟踪文档结果的各个选择; 基于查看长度信息对由选择产生的文档视图进行加权以产生文档结果的加权视图; 并结合文档结果的加权视图来确定第一个数字。 第二数量可以包括文档结果的查看总数,确定可以包括将第一数量除以第二数量,并且相关性度量可以独立于响应于搜索查询返回的其他文档结果的相关性。

这比仅查看文档的查看时间要复杂一些。 该专利还表明,找到这些文档的搜索查询的类别也会对查看时间和用户点击率产生影响:

加权可以包括基于观看长度信息结合观看长度微分器对文档视图进行加权。 查看长度区分器可以包括由搜索查询的确定类别支配的因素,并且加权可以包括基于搜索查询的确定类别对文档视图进行加权。 查看长度微分器可以包括由生成单独选择的用户的确定类型支配的因素,并且加权可以包括基于用户的确定类型对文档视图进行加权。

我们被告知遵循此用户点击率专利中描述的过程可以带来的优势:

  1. 排名子系统可以包括排名修改器引擎,其使用隐式用户反馈来引起搜索结果的重新排名以改进呈现给信息检索系统的用户的最终排名。
  2. 可以跟踪用户对搜索结果(点击数据)的选择并将其转换为可用于重新排列未来搜索结果的点击分数。
  3. 可以在每个查询的基础上收集数据,并且对于给定的查询,可以确定用户对文档结果的偏好。
  4. 此外,可以从隐式用户反馈中确定相关性度量(例如,LC|C 点击分数),其中相关性度量可以独立于响应搜索查询返回的其他文档结果的相关性,以及相关性可以减少呈现偏差的影响(在向用户显示的搜索结果中),否则可能会渗入隐式反馈。

此用户点击率专利的最新版本可在以下网址找到:

基于隐式用户反馈修改搜索结果排名
发明人:Hyung-Jin Kim、Simon Tong、Noam M. Shazeer 和 Michelangelo Diligenti
受让人:谷歌有限责任公司
美国专利:10,229,166
授予日期:2019 年 3 月 12 日
提交时间:2017 年 10 月 25 日

抽象的

本公开包括与对搜索查询的搜索结果进行排名有关的系统和技术。 一般而言,本说明书中描述的主题可以体现在计算机实现的方法中,该方法包括在返回文档结果的搜索查询的上下文内确定文档结果的相关性度量,该确定基于第一数字关于第二数字,第一数字对应于文档结果的较长视图,而第二数字对应于文档结果的至少较短视图; 将相关性度量输出到排名引擎,用于对与搜索查询对应的新搜索的搜索结果进行排名,包括文档结果。 本说明书中描述的主题也可以体现在各种相应的计算机程序产品、设备和系统中。

该专利的声明让我们了解了谷歌如何跟踪搜索者与搜索结果的交互方式以及来自这些交互的数据。 专利声明是美国专利商标局的检察官在决定是否授予专利时所考虑的内容。 这些声明告诉我们有关“结果选择日志”的信息,以及该日志中可以保存哪些类型的信息,以及如何对其进行测量。 我已经包含了该专利的前 5 项权利要求,因为它们都相互关联,并且它们提供了一些有关搜索引擎在我们执行搜索时正在查看的内容的见解:

主张的是:

1. 一种系统,包括: 一个或多个计算机和一个或多个存储设备,在该存储设备上存储指令,当由该一个或多个计算机执行时,这些指令可操作以使该一个或多个计算机执行操作,该操作包括:结果选择日志,关于用户与来自多个用户的 Internet 搜索引擎的搜索结果的交互的数据,实际交互的结果选择日志中的每个日志条目特定于一个交互并包括识别相应用户的数据,由用户, 搜索引擎响应查询呈现的一个或多个搜索结果, 用户从搜索结果中选择的文档, 用户选择的搜索结果在搜索结果的呈现顺序中的序数位置、用户在文档上花费的时间、用户使用的语言以及用户可能所在的国家/地区,其中日志条目包括标识多个用户、多个文档、多种语言和多个国家; 从结果选择日志中的日志条目确定 (i) 多个查询-文档对中的每一个的加权点击分数,(ii) 多个查询-文档-语言对中的每一个的加权点击分数,以及 (iii) 加权-多个查询-文档-语言-国家对中的每一个的点击分数,其中每个加权点击分数基于用户选择的文档加权数量的总和,每个权重基于用户花费的时间文件; 通过应用加权点击分数之一或加权点击分数之一到特定文档的信息检索分数来修改互联网搜索引擎中特定文档的信息检索分数。

2.如权利要求1所述的系统,其中,用户在文档上花费的时间被测量为从初始点击到文档结果到用户返回到由搜索引擎呈现的搜索结果并选择另一个搜索结果之间经过的时间。文档结果。

3.如权利要求1所述的系统,其中,对于所述搜索引擎对搜索结果的多次呈现中的每一个,所述日志数据还包括:文档结果是否呈现给相应用户但未被选择,在其中一个或多个选择的相应位置搜索结果呈现用户界面,所选文档的信息检索分数,所选文档之前显示的所有文档的信息检索分数,以及在用户选择文档之前向用户显示的标题和摘要。

4.如权利要求1所述的系统,其中所述操作还包括: 基于几乎总是选择排名最高的结果的用户为点击分数分配较低的权重比基于更经常首先选择排名较低的结果的用户的点击分数低的权重在加权点击分数中。

5.如权利要求1所述的系统,其中,所述操作还包括: 将文档结果的各个选择分类为两个或多个查看时间类别,并基于分类为各个选择分配权重,所述查看时间类别包括用于短点击的类别和一个长按类别。

该专利还对其所谓的“传统排名技术”进行了一些曲折。 它谈到排名基于信息检索分数和使用 PageRank 的权威分数的组合,但它建立在 PageRank 的基础上,通过查看链接到其他相关文档的页面的链接:

搜索引擎可以包括排名引擎以对与用户查询相关的文档进行排名。 由于给定的查询,可以使用用于确定索引文档的信息检索 (IR) 分数的传统技术来执行文档的排序。 可以通过任何适当的技术来确定关于特定搜索词的特定文档或与其他提供的信息的相关性。 例如,包含搜索词匹配项的文档的反向链接的一般级别可用于推断文档的相关性。 特别地,如果一个文档被许多其他相关文档(例如,还包含搜索词匹配项的文档)链接到(例如,是超链接的目标),则可以推断该目标文档特别相关。 之所以可以做出这种推断,是因为在大多数情况下,指向文档的作者可能指向与其受众相关的其他文档。

如果指向文档又是其他相关文档的链接的目标,则可以认为它们更相关,并且可以认为第一个文档特别相关,因为它是相关(甚至高度相关)文档的目标。 这种技术可能是文档相关性的决定因素或多个决定因素之一。 GOOGLE.RTM 中举例说明了该技术。 PageRank 系统,它将从一个网页到另一个网页的链接视为后一个页面的质量指标,因此具有最多此类质量指标的页面获胜。 还可以采用适当的技术来识别和消除投假票以人为提高页面相关性的企图。

该专利还引入了一个排名修改器引擎,该引擎还研究了其他衡量相关性的方法。

为了进一步改进这种传统的文档排序技术,排序引擎可以从排序修改器引擎接收附加信号以帮助确定文档的适当排序。 排名修改引擎为文档提供一种或多种相关性度量,排名引擎可以使用这些度量来改进提供给用户的搜索结果的排名。 等级修改引擎可以执行下面进一步描述的一个或多个操作以生成一个或多个相关性度量。

搜索引擎可以通过网络转发服务器端搜索结果信号内的最终排名结果列表。 退出网络,客户端搜索结果信号可以被客户端设备接收,其中结果可以被存储在RAM内和/或被处理器用于在输出设备上为用户显示结果。

评分引擎可能对结果进行排名的功能

  1. 将查询链接到文档结果的基于内容的功能
  2. 与查询无关的特征,通常指示文档结果的质量
  3. 跟踪组件可用于记录有关个人用户对排名中呈现的结果的选择的信息。 例如,跟踪组件可以是网页排名中包含的嵌入 JavaScript 代码,用于识别用户对单个文档结果的选择(点击),并识别用户何时返回到结果页面,从而指示用户浏览的时间选定的文档结果。

跟踪用户点击率

用户点击率专利流程图

跟踪用户点击率意味着查看大量信息,例如为每个用户选择指示的日志条目:

  • 查询 (Q)
  • 文件(四)
  • 文件上的时间 (T)
  • 用户使用的语言 (L)
  • 用户可能所在的国家(C)(例如,基于用于访问 IR 系统的服务器)
  • 负面信息,例如文档结果已呈现给用户但未被点击的事实
  • 点击在用户界面中的位置
  • 点击结果的 IR 分数
  • 单击前显示的所有结果的 IR 分数
  • 点击前向用户显示的标题和片段
  • 用户的cookie
  • 曲奇广告
  • IP(互联网协议)地址
  • 浏览器的用户代理等
  • 搜索者整个会话的类似信息,可能会记录当前点击前后发生的每次点击的此类信息

结果选择日志中的所有这些用户信息可能会用于以后改进其他搜索者的结果

该专利还描述了搜索者允许跟踪有关点击的信息,即使是在特定查询的点击后。 可以跟踪上面列出的项目,以及对其他文档集和搜索结果的访问,包括文档之间的时间。 花在特定文档上的时间可以分为较长的视图或较短的视图,较长的视图是点击搜索结果的质量的一般指示。

页面上不同的查看时间可能代表什么?

用户点击率专利提供了有关不同观看长度可能意味着什么的具体细节:

例如,短暂的点击可以被认为是一个糟糕的页面,因此被赋予较低的权重(例如,每次点击 -0.1),中等点击可以被视为表示潜在的好页面,因此被赋予稍高的权重(例如, 0.5 每次点击),长点击可以被认为是一个好的页面,因此给予更高的权重(例如,每次点击 1.0),最后一次点击(用户没有返回到主页)可以被视为可能表示一个好的页面,因此被赋予相当高的权重(例如,0.9)。 请注意,点击权重也可以根据之前的点击信息进行调整。

与其只看时间长度,还可以考虑涉及用户点击率的其他信息:

通过将来自用户选择日志的历史数据与人工生成的关于各种给定搜索结果质量的显式反馈进行比较,可以确定用于对短、中、长点击进行分类的各种时间范围,以及适用于给定搜索引擎的权重。查询,并且可以相应地调整加权过程。

如何防范不良数据

我们听到谷歌的发言人告诉我们,用户点击率不用于排名,而这项专利告诉我们如何更安全地使用用户反馈信息:

请注意,可以采取针对垃圾邮件发送者(生成欺诈性点击以试图提升某些搜索结果的用户)的保护措施来帮助确保用户选择数据有意义,即使对于给定(罕见)查询可用的数据很少。 这些保护措施可以包括采用描述用户随着时间的推移应该如何行为的用户模型,如果用户不符合此模型,则可以忽略他们的点击数据。 可以设计保护措施来实现两个主要目标:(1) 确保投票民主(例如,对于给定的查询 URL 对,每个 cookie 和/或 IP 投一票),以及(2)完全删除来自在浏览行为中看起来不自然的 cookie 或 IP 地址(例如,点击位置的异常分布、点击持续时间、clicks_per_minute/hour/day 等)。 可以删除可疑点击,并且不需要使用看起来是垃圾邮件的查询的点击信号(例如,点击特征分布的用户代理、cookie 年龄等看起来不正常的查询)。

从观看时长确定的相关性

我们被告知,访问者查看结果的次数可能表明他们找到页面的相关性。 短语“陈述偏见”用于描述这可能如何运作

呈现偏差包括呈现的各个方面,例如与文档结果一起提供的有吸引力的标题或片段,以及文档结果在呈现的排名(位置)中出现的位置。 请注意,与其他结果相比,无论文档与查询的真正相关性如何,用户都倾向于单击具有良好片段或排名较高的结果。 通过评估给定查询的给定文档结果的质量,而不管给定查询的其他文档结果如何,这种相关性度量可以相对不受表示偏差的影响。

所使用的查询可以指示可能不需要很多时间的信息需求,并且这可以反映在某人可能在页面上花费的时间量中。 该专利提供了一些涉及导航和信息查询的示例:

因此,在不连续加权的情况下(和连续加权的情况),可以基于查询和用户特定的基础评估构成良好点击的阈值(或公式)。 例如,查询类别可以包括“导航”和“信息”,其中导航查询是可能需要特定目标页面或站点的查询(例如,诸如“宝马”之类的查询),而信息查询是许多可能的页面同样有用的一个(例如,诸如“乔治华盛顿的生日”之类的查询)。 请注意,此类类别也可以细分为子类别,例如信息快速和信息缓慢:当查询是“乔治华盛顿的生日”,但当查询是“希尔伯特变换教程”时,同一用户可能需要更多的时间来评估结果。

该专利还告诉我们,在涉及用户行为时,如何考虑诸如停留时间之类的事情:

可以通过分析 IR 分数或点击分数提供的历史隐式反馈来识别查询类别。 例如,其中任何一个的显着倾斜(意味着只有一个或少数几个文档比其他文档更受青睐)可以表明查询是导航性的。 相比之下,查询的更分散的点击模式可以表明查询是信息性的。 一般而言,可以识别查询的某个类别(例如,导航),可以从历史点击数据中定位和提取一组这样的查询,并且可以执行回归分析以识别指示该查询类型(例如,导航查询与其他查询类别的平均停留时间;术语“停留时间”是指查看文档结果所花费的时间,也称为文档停留时间)。

不同的用户类型和模式以及点击

该专利还不仅仅是查看用户点击率,还可以查看如何根据不同用户的点击速度和点击内容识别有关不同用户的信息。 我怀疑这里告诉我们的只是几个例子,并且已经发现了更多的观察结果,可能表明其他有用的方式来解释此类点击:

用户类型也可以通过分析点击模式来确定。 例如,精通计算机的用户通常比经验不足的用户点击速度更快,因此可以根据用户的点击行为为用户分配不同的权重函数。 这些不同的加权函数甚至可以完全特定于用户(具有一个成员的用户组)。 例如,可以确定每个用户的平均点击持续时间和/或点击频率,并且可以相应地调整每个用户的阈值。 还可以基于各种点击行为模式将用户聚类成组(例如,使用 K 均值聚类算法)。

此外,可以根据确定的用户类型来调整权重,这两个方面包括点击持续时间如何转化为好的点击与不太好的点击,以及从一个好的点击给予多少权重。特定用户组与另一个用户组。 由于用户评论过程的细节,一些用户的隐含反馈可能比其他用户更有价值。 例如,几乎总是点击排名最高的结果的用户可以为他的良好点击分配比更经常点击排名靠前的结果的用户更低的权重(因为第二个用户在评估什么时可能更具辨别力构成一个好的结果)。 此外,可以根据用户的查询流对用户进行分类。 对给定主题 T 发出(或相关)许多查询(例如,与法律相关的查询)的用户可以被假定具有关于给定主题 T 的高度专业知识,并且他们的点击数据可以相应地被加权以用于其他他们对给定主题 T 的(或相关的)查询。

Hyung-Jin Kim 的用户点击率专利

我今天要写的专利的发明者之一是 Hyung-Jin Kim。 我以前见过他的名字。

AJ Kohn 的一篇关于他共同发明的专利的有趣博客文章也值得花时间查看。 点击率是排名信号吗?。

另一篇关于同一发明人的专利的文章是我写的一篇名为使用查询用户数据对查询进行分类的文章。 Hyung-Jin Kim 并不是唯一一位撰写有关用户点击率的 Google 搜索工程师。

我还看到了 Navneet Panda 的一些专利(是的,Google Panda 更新就是以这个名字命名的),他写了关于 Google 从用户点击率和用户行为中学习的可能性,这可能会影响搜索排名

我还写了一篇文章长点击和搜索成功的质量,涵盖了一项专利,该专利将某人可能在页面上花费的时间长度作为该页面质量的指示。 长点击似乎是谷歌人一直非常关注的一个指标,它与用户点击率密切相关。