Google 的查询模式生成
已发表: 2019-11-14查询如何确定意图分类器
当有人搜索某物时,他们会在搜索引擎的搜索框中输入一些关键字。
谷歌最近获得了一项专利,涉及在搜索中可能看到的查询模式。
通常,搜索中使用的关键字可以指示搜索背后的意图,并且可以“指示用户所需信息的范围,并且可以使用分类器来捕获用户执行的一个或多个操作的上下文”。
这是这项新专利的重点。
它告诉我们有关该分类器的更多信息,以及 Google 等搜索引擎如何推断它,以更好地理解搜索的目的,并“使用分类器为搜索分配上下文”。
该专利提供了一个例子。 它告诉我们意图(例如,分类器)可以告诉它更多关于搜索者可能希望看到响应搜索结果中的查询而显示的一个或多个主题的信息,以及关于该信息可能在这些主题上的具体程度的一些信息。
换句话说,谷歌会查看用户关于搜索的输入来决定主题类别来回答查询。
查询和意图示例
专利中搜索查询的几个相关示例:[Barack Obama] 和 [Obama 2004 大会演讲]。 这些查询表明需要有关 Barack Obama 的信息,涵盖略有不同的主题,具有不同的特异性。
Google 将查看查询以确定其背后的意图。 然后它将根据该意图分配一个分类器。
该专利致力于分析搜索查询、查询模式和查询文档,以生成额外的查询、查询模式和查询图,这些查询可用于提供与输入搜索查询的用户指示的一个或多个意图相匹配的搜索内容。

我们被告知搜索查询和搜索文档可以有不同的用户意图分辨率。 Google 可以查看查询可能返回的文档,以了解用户响应该查询的意图。
该专利告诉我们查看这些文件的好处是:
通过这种方式,可以使用精确利用文档隐含的意图分离的算法,并且可以使用分类器将意图投射到查询上。 此映射可用于生成和匹配查询模式,后者可用于将搜索结果与用户输入的搜索查询进行匹配。
专利外卖
考虑到这种方法,它向我建议,如果您正在执行关键字研究,您应该搜索您正在考虑优化的关键字,并仔细查看 Google 返回的响应文档,以了解谷歌确定这些关键词的意图是什么。
自动查询模式生成
除了能够确定意图之外,这似乎是该专利背后流程的重点:
……这里描述的系统和方法可以检测与用户输入的搜索查询相关联的查询模式,并基于检测到的查询模式自动生成类似的查询模式。 特别地,本文描述的系统和方法可以访问与检测到的查询模式匹配的搜索文档以生成一个或多个查询模式,这些查询模式可以用于查找与所访问的搜索文档相似的文档。 使用搜索文档来确定查询中的意图可以提供利用文档暗示的意图和/或子意图并将这些意图和/或子意图投射到接收的搜索查询上的优势。
因此,除了更好地理解查询背后的意图之外,谷歌还可能努力识别查询背后的模式。 该专利指出了一些例子:
如这里所使用的,查询模板表示包括查询部分(例如,子短语)和支持指定替换部分的查询短语。 例如,查询模板 [weather in X] 可用于表示诸如 [巴黎天气]、[纽约天气] 和 [纽约天气] 等查询。 “X”代表替换部分,而术语“天气”、“纽约”和“巴黎”代表查询部分。

因此,一个可能有多个示例的查询模式,可以说是一个查询模板。 诸如 [weather in X] 之类的查询模式可以表示包含术语“天气”和标识地理位置的术语的所有查询,例如 [巴黎的天气]、[纽约的天气]、[东海岸的天气] ] 和 [我附近的天气]。
查询模式可以包括:
- 用于匹配接收到的查询并解释匹配查询的一个或多个预定义规则
- 语言标识符(例如,法语)
- 一个国家或域(例如,法国)
- 停用词(可以忽略)
- 一个连接器
- 置信值
- 查询拆分过滤策略
查询注释器也可用于查询模式生成。
查询注释器确定哪些实体出现在给定的查询中,其中每个实体都有独立于语言的规范表示,例如,对查询“巴黎天气”应用查询注释器可能会注释字符串“巴黎”具有唯一标识符(例如,“/m/05qtj”),代表法国首都“巴黎”的规范表示。 您可能会注意到,专利中的唯一标识符是来自 Freebase 的机器 ID 号,Google 在其他地方的搜索中使用它来识别实体(请参阅:使用 FreeBase 实体号的 Google 搜索中的图像搜索和趋势)

使用此类查询模板、查询模式和查询注释器,Google 可以找到或生成可能表达相同用户意图的其他查询模式。
例如,诸如 [weather in X] 的查询模式还包括:
[×天气]
[X的天气如何]
[X的天气怎么样]
[X的温度是多少]
[X在下雨吗]
等等。
这是因为搜索 [巴黎天气] 的人和搜索 [巴黎天气] 的其他人可能有类似的意图,希望看到相同类型的信息。
自动查询模式生成的规模
在阅读这样的专利时,您可能想知道它的使用频率。 有时,我们有幸在专利中得到类似以下内容的声明(请注意此处描述的“数十亿 Web 文档”:
模式生成器可以被配置为使用来自搜索查询的重复子短语将一组相似的搜索查询转换为一组模式。 这组模式可以基于 Intranet 上的数十亿个 Web 文档聚合成一个模式图。 一般来说,Internet 上的每个文档都可能贡献几对可能相似的查询模式。 这些对是聚合模式图的基础。 在聚合模式图中,每个查询模式代表一个节点,每两个相似的节点在图的一条边上相连。 两个连接节点之间的相似度可以通过连接两个节点的边的相似度得分来量化。 一对相似的节点可以称为相似的邻居。 在基于返回相似搜索结果的两个模式而认为两个模式相似的示例中,使用相似邻居来过滤离题候选模式可以提供减少用户接收不准确搜索结果的发生的优势,即使用户这两种模式的意图实际上并不相似(例如,对于查询模式[X 处理] 和[X 症状])。 这是因为许多文档都从这两种模式中获得流量。 使用相似的邻居标准,即使相关文档出现在相同的搜索结果中,系统100中使用的算法也可以确定特定模式实际上并不相似。
我们也看到了描述特色片段查询模板的专利。 我在 Featured Snippets – Natural Language Search Results for Intent Queries 一文中写了一篇。 那个试图识别可以理想地用特色片段回答的查询模式。 我在该专利中没有看到短语“特色片段”,但它确实有许多查询模式示例。
例如,使用以下查询的搜索者可能会提供和选择与“加利福尼亚要做的事情”主题相关联的文档:
(a) “在加利福尼亚要做的事情”
(b) “在加利福尼亚做什么”
(c) “加州景点”
(d) “加州最好的事情”
等等。
类似的查询可能会将实体“加利福尼亚”与诸如“俄亥俄”之类的实体交换。
自动查询模式生成专利的要点
通过这项专利,我想起了我过去所做的关键字研究,发现查询模式和模板,并使用 Excel 中的连接功能向它们添加查询注释器。
通常在写查询中的意图时,我们看到人们提到导航、信息和事务查询。 我最后一次写关于查询意图的文章是在 Google 如何识别导航查询和资源一文中。 该专利着眼于查询模式以更好地理解查询背后的意图,可以提供关于搜索意图的更精确信息,而不仅仅是搜索是信息性、导航性还是交易性的。
2014 年,Google 运行了 Biperpedia 项目,该项目使用查询日志信息来构建搜索本体,其中包括规范查询——就像您可能想要收集有关您是否决定使用查询模式和查询模板做事的信息。 我们已经看到本专利中提到的实体机器 ID 用于自由库编号,例如可能在 Google 的知识图中找到。 因此,像 Biperpedia 和知识图这样的资源将是可能收集有关查询模板的信息的地方,用于响应具有不同意图的查询。
可以在以下位置找到此自动查询模式生成专利:
自动查询模式生成
发明人:Tomer Shmiel、Dvir Keysar 和 Vered Cohen
受让人:GOOGLE LLC
美国专利:10,467,256
授予时间:2019 年 11 月 5 日
提交时间:2016 年 8 月 3 日
抽象的
描述了一个总体方面,包括一种用于生成模式图的计算机实现的方法。 该方法可以包括访问关于网络文档语料库的数据。 数据可以包括多个查询-文档对。 该方法还可以包括识别多个查询-文档对中的至少一个查询模式,并且该查询模式可以与语料库中的网络文档的一部分相关联。 该方法还可以包括识别至少一个查询模式中的多个子短语,在网络文档语料库中确定包括多个子短语中的至少一个的多个其他查询模式,以及分配对至少一个查询模式和包括至少一个子短语的多个其他查询模式中的每一个查询模式的分类器。
