关于网站和类别访问持续时间的熊猫专利

已发表: 2017-07-28

搜索结果持续时间

几个月前,也就是 6 月,我写了一篇文章,点击熊猫:基于重复点击和访问持续时间的高质量搜索结果。

在那篇博文中,我指出 Google 搜索工程师 Navneet Panda(Google 的 Panda 更新以他的名字命名)从事了几项专注于高质量搜索结果的专利。 而且我不禁回顾了自 Panda 更新以来可能由 Panda 编写的新专利。 我在 6 月份撰写的专利是一项延续专利,它添加了有关搜索结果重复点击和测量访问这些页面的持续时间的信息。 重复点击和测量网站访问的持续时间很有趣,让我怀疑我是否能找到同样值得研究的东西

他在其他网站上看过类似的信号吗?

网站时长性能评分

2016 年 12 月 6 日来自 Navneet Panda 和 James A. Kunz 的一项专利,题为基于类别持续时间的网站持续时间性能,查看网站持续时间和网站部分的点击次数。 专利描述为我们总结了该专利的工作原理。 第一部分看起来相当简单:

处理索引、查询日志和导航日志以生成站点数据。 站点数据描述网站并包括表征用户对网站特定资源的访问以及每次访问的持续时间的数据。 例如,访问数据可以识别用户对搜索结果网页中包含的搜索结果的点击或 URL 的直接输入,并且对于每个选择和输入,测量从用户请求资源以及用户设备请求另一个资源的时间。

该专利使用“持续时间”一词来表示访问页面可能需要的时间:

获得的数据表征用户对资源的访问以及这些访问的持续时间。 在此数据中,可以通过多种方式中的任何一种来衡量访问的持续时间。 例如,访问的持续时间可以测量为用户发起对资源的请求之间的时间,例如通过点击资源的链接或在提供的输入字段中输入资源的资源定位符由运行在用户设备上的应用程序或应用程序的附加组件,以及用户发起对另一个资源的另一个请求的时间。 或者,持续时间可被测量为例如资源被应用程序完全呈现的时间与用户发起对另一资源的另一请求的时间之间的时间。

该专利还着眼于可能与资源相关联的类别或主题的权重:

搜索引擎外部的过程可以对资源和网站进行分类。 在一些实施方式中,资源被单独分类,然后网站基于资源类别被分类。 每个资源和网站也可以属于多个类别,并且每个类别可以通过类别权重来反映,该类别权重是类别与资源和/或网站的关联强度的度量。 例如,包含关于职业运动员开设连锁餐厅的新闻报道的资源可能具有分别反映新闻、体育和餐饮类别的中等相关性的类别权重。 相反,包含关于国际冲突的新闻报道的资源可能具有反映与国际新闻类别非常高的相关性的类别权重。

该专利谈到根据网站上的不同类别测量会话长度和权衡持续时间。 我们被告知以下是持续时间分数的有趣用途:

持续时间性能分数可用于为搜索操作的资源和网站评分。 搜索操作可以包括对搜索结果的资源进行评分、对网站的索引进行优先排序、建议资源或网站、保护特定资源或网站免于降级、阻止特定资源或网站进行促销或其他适当的搜索操作。

收集的有关访问站点不同部分的持续时间信息可用于告诉搜索引擎更多有关该站点的信息。 我们被告知基于类别持续时间得分的网站持续时间绩效得分:

对于网站所属的多个类别中的每一个,该过程基于持续时间测量确定类别持续时间得分,每个类别持续时间得分与来自持续时间测量的时间持续时间成比例(206)。 在一些实施方式中,为了确定类别持续时间分数,为网站确定单个网站持续时间分数,然后使用持续时间分数为网站生成类别持续时间分数。 根据这些类别持续时间分数,确定网站的持续时间性能分数。

该过程根据一个或多个类别持续时间分数确定网站的持续时间性能分数(208)。 在一些实施方式中,持续时间性能分数与确定持续时间性能分数的一个或多个类别持续时间分数成比例(208)。 例如,持续时间性能分数可以基于网站的所有类别持续时间分数。 或者,持续时间性能分数可以基于网站的类别持续时间分数的适当子集。

降低噪音

谷歌有人经常提到的关于在排名中使用用户行为数据的问题之一是,它通常是一个嘈杂的信号。 该专利讨论了如何降低此类信号中的噪声。 看到这样的讨论很有趣。 (不确定我是否曾在 Google 上看到过这样的关于减少噪声信号的列表。)以下是一些可以减少噪声的方法:

过滤掉短点击并减少其他噪声因素——在某些实现中,在确定会话的持续时间时,最后访问的持续时间被打折。 最后访问的持续时间对应于响应于用户设备从网站请求资源和从另一个不同网站请求资源而生成的持续时间测量。 例如,在选择搜索结果时滤除“短点击”折扣,然后将用户导航回搜索结果页面,或者由于页面加载延迟,延长了对网站的一次访问时。 打折上次访问的持续时间的另一个原因是上次访问的持续时间可能容易受到 2) 其他噪声因素的影响,例如用户离开计算机并显示资源,然后一小时后回来并立即导航到另一个资源另一个网站的。 例如,当从上面的表 1 中扣除上次访问的持续时间时,计算出的持续时间为 525 秒。

去除先前访问的持续时间——在一些实现中,在确定会话的持续时间时添加先前访问的持续时间。 先前访问的持续时间对应于紧接在选择第二网站上的第一资源之前在第一网站上访问的最后资源上生成的持续时间测量。 例如,在上面的表1中,网站S0的资源R0的持续时间测量为160秒。 这是资源 R1-R7 的持续时间的先前访问持续时间。 因此,当从上面的表 1 中扣除上次访问的持续时间并考虑到先前访问的持续时间时,计算出的持续时间为 685 秒。

来自先前访问的寻址提升——在一些实现中,响应于用户设备请求资源以响应资源地址的直接用户输入而生成的每个持续时间测量被提升。 这种直接输入表示用户对质量的积极评估,因此该资源的持续时间增加了。 boost值可以是固定值,也可以与用户直接输入地址的频率或数量成正比。 例如,假设提升因子为 1.5,并且还假设还使用了上次访问持续时间的折扣。 从上面的表 1 中,如果响应直接用户输入请求第一个资源,则计算出网站持续时间为 585 秒。

带走

看到 Google 的一项查看用户行为数据的专利很有趣,例如某人可能会在网站上点击什么以及他们可能会在该网站上花费多少时间。 看到谷歌关于如何减少来自用户行为信号的噪音的讨论也很有趣。 当这种讨论的作者被命名为 Panda 时,这就值得重新审视。