Google 如何使用上下文历史预测查询意图

已发表: 2018-11-29

了解搜索背后的查询意图

Andrea Broder 的网络搜索分类 (pdf) 是关于信息查询、交易查询和导航查询之间的差异。 在针对查询词优化页面时,了解这些很重要。

您是否希望教授人们有关概念或主题的知识? 如果是这样,您将他们的查询视为信息查询。

您是否正在创建一个旨在销售商品或服务的页面? 然后,您将他们的查询视为事务性的,并使他们能够购买或预订某物。

用于帮助某人找到他们知道的页面的查询,因为他们以前看过它,或者期望它存在,并且他们期望返回给他们的特定页面,称为导航查询。 当有人搜索特定产品或品牌的名称时,他们会对该产品或品牌的主页感到满意。

我开始在一个网站上做 SEO 作为内部 SEO 帮助人们合并业务。 该页面在诸如“在特拉华州成立公司”之类的词中排名很高。 当它成为特拉华州公司分部网站之后的该术语排名第二的网站时,它获得了更多转化,该网站仅提供信息,不为访问者提供在特拉华州开展业务的机会。

人们会在搜索结果中看到公司部网站,访问它并了解流程,然后返回到搜索结果,并访问交易网站,比如我的,他们可以在那里合并。 这是一个排名最高的网站并不是优势的例子。 了解此类查询背后的意图有助于解释发生这种情况的原因。

更多关于查询意图

另一篇关于搜索和查询背后意图的论文是一个简单的分类模型
Web Queries by User Intent (pdf) 作者:D. Irazu Hernandez、Parth Gupta、Paolo Rosso 和 Martha Rocha。 它对查询意图做出了一些值得重复的有趣陈述,包括以下内容:

基于用户意图的查询分类旨在对查询背后的需求进行分类。 Jansen 和 Booth [4] 将用户意图定义为与 Web 搜索引擎交互中的情感、认知或情境目标的表达。 基于用户意图的查询分类与传统的文本分类不同,主要有两个问题[2]:第一,Web 查询通常很短; 其次,许多查询是不明确的,比一个查询属于多个类别是常见的。 例如,对于“歌剧院门票”的查询,很难确定用户是想了解网站还是购买门票参加活动。 大多数工作通常涉及手动分类的少量查询。

虽然那篇论文提供了一些更好地理解查询意图的想法和方法,但我喜欢它如何构建它旨在解决的问题。 上周发布的谷歌专利申请描述了搜索引擎如何尝试理解搜索的上下文,以更好地理解搜索者查询背后的意图。

谷歌基于上下文预测查询意图的专利

这不是一个新概念,我们可以将意图与查询相关联,Google 可能会尝试这样做以了解用户在搜索什么,然后在搜索框中输入一些单词。 这项专利的新鲜之处在于谷歌可能会付出多少努力来尝试理解查询意图。 当有人在午餐时间在 Google 中输入“pizza”这个词时,我们可以猜测他们可能对吃东西感兴趣,并且可能正在寻找一个可以在那里取一些比萨饼,或者可能会送到他们手上的地方。

他们可能不太可能在整个时间段内寻找比萨饼的历史(但他们可能会。)可能需要多少上下文才能为大多数搜索做出这样的假设?

像大多数专利一样,谷歌的这项新专利告诉我们它打算解决的问题:

如果搜索查询不是严格定制的,或者如果用户没有提供超出查询的附加信息的方式,计算设备可能会返回过多的信息; 用户很难找到一些最有趣或最相关的信息。 用户可能会感到压力和/或浪费宝贵的时间和资源,将非常详细的查询输入到计算设备中,导致计算设备执行多次搜索,或筛选大量搜索结果,以获得完成特定任务所需的信息.

如果该搜索者饿了并且很快想要一些比萨饼,那么如果搜索引擎能够确定附近可以提供美味比萨饼的位置,他们对搜索引擎的满意度可能会迅速提高。

使用上下文来预测查询意图

查询意图上下文历史专利流程图

查询意图可用于使搜索引擎能够调整从搜索返回的搜索结果,因此与从搜索返回的其他信息相比,满足意图的信息得到强调。

该专利为我们提供了一个示例,即有人搜索他们刚刚购买了电影票的电影。 系统可能能够查看日志数据,并确定搜索者已经购买了该电影未来放映的门票,并且可能会调整结果,以便“电影放映时间的排名低于其他信息(例如,评论、纪念品、琐事等)关于特定电影。”

我们熟悉搜索引擎收集有关我们执行的先前搜索的信息以个性化我们可能看到的结果,但这种旨在减轻压力或避免浪费时间的上下文的使用是不同的。

该专利申请告诉我们,只有在获得使用搜索引擎分析该信息的人的许可后,它才能查看此类上下文信息。 该专利提供了其他示例,说明他们如何使用上下文信息,这些信息可能会改变他们可能向搜索者显示的搜索结果的顺序。

请记住,这仍然是一项待批的专利申请,可能尚未实施,但可能会在未来的某个阶段实施,而且 Google 很可能正在关注上下文以预测查询背后的意图,并且可以使用诸如一天中的时间、一年中的哪一天和位置之类的东西。

该专利确实告诉我们它将限制某些信息的使用,例如任何可能泄露有关搜索者的个人身份信息的信息。

可以在以下位置找到此新公布的专利申请:

预测搜索特定上下文的意图
刊号:20180336200
出版日期:2018 年 11 月 22 日
申请人:谷歌公司
发明人:Yew Jin Lim、Joseph Linn、Yuling Liang、Carsten Steinebach、Wei Lwun Lu、Dong Hyun Kim、James Kun、Lauren Koepnick 和 Min Yang

抽象的:

描述了一种计算系统,其基于由一组计算设备执行的用户发起的动作,使用从计算设备接收的特定搜索查询来确定搜索的意图。 计算系统通过强调满足意图的信息,基于意图调整使用搜索查询从搜索中获得的搜索结果的至少特定部分。 计算系统向计算设备发送调整的搜索结果的指示。

上下文历史示例

该专利申请告诉我们一些可能用于预测查询意图的不同类型的上下文信息,包括他们称为感兴趣主题的事物列表,可以通过以下方式找到:

  • 用户兴趣图或其他类型的数据结构
  • 与用户相关联的联系信息(例如,用户的个人联系信息以及有关用户朋友、同事、社交媒体关系、家人等的信息)
  • 搜索历史
  • 位置记录
  • 长期和短期任务
  • 日历信息
  • 应用程序使用历史
  • 购买记录
  • 收藏夹
  • 书签
  • 其他信息

除了这些个人兴趣类型的东西之外,它们还包括其他上下文信息。

关于计算设备的运行状态(他们在这里深入挖掘。):

  • 开关位置
  • 电池电量
  • 设备是否插入墙上插座或以其他方式可操作地耦合到另一个设备和/或机器
  • 用户身份验证信息(例如,当前已通过身份验证的用户或设备的当前用户)
  • 设备是否在“飞行”模式、待机模式、全功率模式下运行

上下文信息的其他示例:

  • 声纹指纹
  • 视频指纹
  • 一个位置
  • 运动轨迹
  • 一个方向
  • 一个速度
  • 机构名称
  • 街道地址
  • 一种地方
  • 建筑
  • 天气状况
  • 交通状况
  • 一个日历事件
  • 与地点和/或时间相关的会议或其他事件
  • 在特定时间查看的网页地址
  • 在特定时间在网页的数据字段中输入的一个或多个文本条目,包括搜索或浏览历史记录
  • 在特定时间购买的产品
  • 产品愿望清单
  • 产品注册
  • 由计算设备在不同地点和时间访问或广播的音频和/或视频
  • 电视或有线/卫星广播由计算设备在不同地点和时间访问或在该计算设备存在的情况下广播
  • 有关计算设备在不同位置和时间访问的其他服务的信息。

我们看到该专利中出现了其他类型的信息,例如移动位置历史记录,我之前已经详细介绍过。

该专利申请告诉我们它可以如何索引此类上下文,以使其能够搜索可能与查询相关的信息,从而补充或修改此类查询的搜索结果。

它还告诉我们,它可能维护搜索历史,与搜索引擎可能维护的有关搜索和运行搜索的设备的上下文历史分开。 谷歌可能不会询问搜索者搜索背后的意图,但听起来他们可能能够了解搜索背后的人和机器,从而使他们能够预测搜索结果中显示的内容。

机器学习确定查询意图

一项谷歌专利告诉我们其背后的过程涉及收集大量信息。 它可以在过滤掉不必要的信息后进行预测,以便它可以“定义一个狭窄的上下文,从而可以推断出搜索查询的真实意图”。

该专利还告诉我们如何使用深度学习来帮助完成这项任务:

预测模块可以执行接收作为输入的机器学习模型(例如,深度学习模型):搜索查询(或搜索查询的一部分)和从上下文模块接收的当前上下文。 机器学习模型可以使用当前上下文的搜索查询生成搜索意图的指示(例如标签或其他标识符)作为输出。

结论

该专利提供了有关预定义意图(如旅行)和意图分数的详细信息,以及用户数据如何训练机器学习有关查询意图的信息。

这是一项专利申请,谷歌可能没有实现创建此类上下文历史并根据它们调整搜索结果。 此外,请记住,该专利表示他们可能会在分析此类上下文数据之前请求许可。

根据我上面分享的上下文示例重复查询意图:

  1. 你买电影票
  2. 你搜索那部电影
  3. 搜索引擎会注意到您的购买记录
  4. 您的搜索结果可能会调整为向您显示有关该电影的琐事、纪念品和新闻,而不是向您显示同一部电影的其他放映时间

虽然谷歌正在深入跟踪搜索历史和位置历史,但这种对查询意图的理解和上下文历史的使用可能比搜索个性化更能改变排名。