谷歌如何通过查看搜索者之前的查询来重写查询

已发表: 2019-08-24

穆德维尔体育场(Mighty Casey Struck Out)有多少人?

本周早些时候,谷歌获得了一项涉及查询重写的新专利。 它的工作方式与 Google 的 Hummingbird 或 Google 的 Rankbrain 的工作方式不同。

我们已经看到有关重写查询的专利,搜索者可能会使用返回页面进行搜索,这些页面确实满足搜索者的信息需求情境。 这些是 Google 的 Hummingbird 更新以及使用同义词重写查询的其他 Google 专利背后的想法。

在下面来自蜂鸟专利的图中,Chicago Style Pizza 的“place”一词可以改写为“restaurant”,这样谷歌作为查询更容易回答。

Google Hummingbirs 按上下文的同义词

我在我的文章 The Google Hummingbird Patent? 中写了一篇专利,描述了 Hummingbird 使用的查询重写方法。 在那篇文章中,我写了在谷歌宣布 Hummingbird 更新前两周获得的一项谷歌专利,并在公告中分享了一些查询重写的例子。 该专利是基于共现词的同义词识别。

在宣布蜂鸟的活动中,他们就更新发表了以下声明:

谷歌特别表示,Hummingbird 更加关注查询中的每个词,确保考虑整个查询——整个句子、对话或意思——而不是特定的词。 目标是匹配含义的页面做得更好,而不是匹配几个单词的页面。

~ 常见问题:关于新的谷歌“蜂鸟”算法

在查询“什么是芝加哥风味比萨的最佳地点”中,该专利告诉我们“地点”一词可以替换为“餐厅”一词,这将使搜索引擎更容易回答。

这项新专利可能会查看搜索者自己的话来重写查询。 它可能会查看他们之前可能执行过的查询,以帮助他们找到想要查找的内容。 我将提供专利背后流程的摘要,然后举例说明先前的查询如何帮助重写搜索者的查询。

使用以前的查询重写查询

这些是新授权专利中确定的步骤,详细说明了其背后的过程:

  1. 搜索引擎接收来自搜索者的查询
  2. 搜索引擎可能在同一会话期间收到了来自同一搜索者的多个先前查询
  3. 搜索引擎可以根据最新的搜索查询和来自同一搜索者的先前搜索查询创建许多候选查询重写
  4. 这些候选查询重写的评分是基于对响应于候选查询重写的搜索结果的分析确定重写的质量
  5. 根据满足阈值的分数选择候选查询重写
  6. 来自所选候选查询重写的那些搜索结果将显示给搜索者

该专利告诉我们,有一些与这种查询重写方法相关的可选功能。 我认为有趣的是,在以前的查询中包含实体是这种重写方法的一个有趣方面。

这些可选步骤充实了上面列出的步骤。

  1. 创建候选查询重写的次数可能意味着将原始查询与每个先前的搜索查询连接起来
  2. 每个先前查询都有一个时间戳,并且对候选查询重写进行评分的一部分可以包括根据先前查询的年龄对候选重写进行加权。
  3. 创建这些数量的候选查询重写可以包括从来自多个用户的与搜索查询相似的查询集合中识别查询。
  4. 对候选查询重写进行评分还包括根据来自许多用户的查询集合来确定每个候选查询重写的流行程度。
  5. 对每个候选查询重写进行评分还可以包括确定它是否包含特定类型的引用项(可能是实体引用)
  6. 可以响应于确定候选查询重写包括特定类型的实体来增加候选查询重写的分数。
  7. 对每个候选查询重写的评分还包括确定搜索查询中是否具有与特定实体高度相关的术语。
  8. 响应于确定候选查询重写包括与查询项高度相关的实体,可以增加候选查询重写的分数。
  9. 基于响应于候选查询重写的搜索结果的分析来确定每个候选查询重写的质量包括响应于每个候选查询重写获得搜索结果并确定搜索结果的质量。

这种查询重写方法不是理解查询中所有单词的上下文并以更有可能返回对搜索者有用的结果的方式重写它们。 通过让搜索引擎了解来自同一查询会话的多个查询的上下文,以及它们是否有助于提供满足搜索者的答案,它对此进行了扩展。 该专利告诉我们,该专利的工艺背后的优势在于:

使用先前的用户会话查询来重写查询提高了响应用户意图返回搜索结果的可能性。

这个查询重写专利是:

使用会话信息重写查询
发明人:Marcin M. Nowak-Przygodzki 和 Behshad Behzadi
受让人:谷歌有限责任公司
美国专利:10,387,437
授予时间:2019 年 8 月 20 日
提交时间:2017 年 1 月 13 日

抽象的

用于自然语言处理的方法、系统和装置,包括在计算机存储介质上编码的计算机程序。 其中一种方法包括在用户会话期间接收来自用户的搜索查询; 获得用户在用户会话期间收到的多个先前的搜索查询; 生成多个候选查询重写,其中候选查询重写是从搜索查询和用户的多个先前搜索查询中得出的; 对每个候选查询重写进行评分,其中对每个候选查询重写进行评分包括基于对响应于候选查询重写的搜索结果的分析来确定每个候选查询重写的质量; 选择具有满足阈值的分数的候选查询重写,并响应于所选择的候选查询重写提供搜索结果。

查询重写测试和要点

我确实尝试了此专利中列出的示例中的查询,但它并没有为我重写我的查询。 总是测试这样的东西,不管是我写的,还是你自己遇到的专利,这听起来很有趣——看看谷歌是否按照专利所说的去做,或者他们是否实施了任何表明他们正在朝着它前进。

我最近写了一篇文章,企业的质量访问分数可能会影响 Google 本地搜索中的排名,无法判断他们是否使用质量访问分数来提高本地结果的排名,但还有其他迹象表明 Google 可能正在朝着这样的事情。 第一个是谷歌在 Google Analytics 360 中展示了高质量的访问信息。第二个是谷歌网站管理员博客最近的一篇文章告诉我们,谷歌将在不同的业务类别中为排名前 5 的企业颁发徽章% 访问过的网站在其类别中。 因此,寻找专利中描述的过程正在使用的迹象。

该专利的示例包括使用以下查询进行搜索:

[穆德维尔体育场]
【泥城九号】
[巴拉克奥巴马]

下一个查询将是:

[容量是多少]

它将引用先前查询中的第一个。

基于将该查询与第一个先前查询连接起来的候选查询重写将是:

[Mudville 体育场的容量是多少?]

它还指的是在第一个查询中命名的实体的属性(体育场的容量),它符合候选重写查询将获得高分的可选特征。

Google 不会将最后一个查询与第一个查询结合起来,并不会返回向我展示 Mudville 体育场此时容量的结果。 再说一次,我不确定是否有一个真正的 Mudville 体育场(这是 Casey At the Bat 发生的地方,所以我尝试了相同的查询集,用 Lincoln Financial Field(这是真实的)替换了 Mudville Stadium,而 Google 做到了也不要告诉我林肯金融领域的容量。至少现在还没有。我会再试一次。