Google 语音搜索的早期

已发表: 2018-07-26

谷歌语音搜索

我第一次记得来自 Google 的语音搜索

我记得 2007 年去纽约市参加一个会议。我从 Penn Station 坐出租车到我的酒店，酒店门前挤满了前来参加会议的 SEO。我遇到了 Loren Baker（搜索引擎杂志的所有者），我曾经和他一起工作，他正在给一个叫做 Goog 411 的东西打电话，这是一个自动电话目录，谷歌决定运行三年。那时我不知道我最终会多久使用我的手机来查找有关企业的信息，或者语音搜索会像现在一样流行于手机和扬声器搜索设备。

本周授予的一项谷歌专利是关于对企业列表的语音搜索，并提到“自动 411 目录辅助系统”，它可能以“模拟人工操作员与来电者互动的方式”与人互动。

谷歌现在正在自己拨打自动电话

该专利让我想起了今年早些时候在 Google I/O 大会上展示的 Duplex 系统。虽然该演示展示了谷歌助手可以代表一个人拨打的电话。该专利讨论了您可以向自动化系统拨打电话，该系统可以接听并为您提供信息。该专利告诉我们，它涉及：

传统的自动化系统包括识别呼叫者的语音输入的语音识别引擎。该自动化系统包括一个搜索引擎，用于在数据库中搜索呼叫者请求的特定企业的电话号码。如果语音识别引擎无法识别呼叫者的语音输入，则识别引擎可以要求呼叫者重复输入、询问呼叫者消除歧义的问题或将呼叫转接给人工接线员。

那么，当有人通过语音查询之类的方式寻找企业时，语音搜索如何工作？该专利提供了一些详细信息，告诉我们我们可能与计算机系统进行交互，该计算机系统可能会接受我们的查询并搜索返回给我们的信息。

第一步是除了位置信息和可能的特定业务的标识符之外，还询问“业务类型或类别信息”。可以用搜索数据库来搜索关于特定企业的信息（例如，电话号码）的搜索引擎来响应该查询。

业务类型信息可以由用户输入提供，可以是用户在过去的通话或用户的在线搜索活动中提供的信息，例如关键字搜索和点击。该专利指出了这个例子：

...如果多个用户输入某个关键字或词组，然后点击特定业务，则系统可能会建立新的业务类型，表明用户将特定业务与该关键字或词组相关联。

我们似乎没有从这项专利中看到谷歌从他们的 Goog 411 服务中学到的东西，他们曾经在电话上提供基于语音的搜索。他们在 Google 官方博客上告诉我们，他们将在 2010 年与老朋友再见：1-800-GOOG-411 的帖子中终止该服务。正如该帖子告诉我们的那样：

GOOG-411 是 Google 的第一个语音识别服务，它为现在在智能手机上提供的更雄心勃勃的服务奠定了基础，例如：
语音搜索——通过说话而不是打字来搜索谷歌。
语音输入 – 通过说话而不是打字来填写 Android 上的任何文本字段。
语音操作 – 使用语音命令控制您的 Android 手机。例如，您只需说出其名称即可快速轻松地呼叫任何企业。

这项最近授予的自动目录语音搜索专利似乎并没有描述什么新鲜事。阅读有关 Goog 411 的信息，它似乎向来电者免费提供有关企业的信息，以使 Google 能够收集语音数据。正如 Marissa Mayer 在接受 Infoworld 采访时所说：

我们的语音识别专家说：如果你想让我们建立一个真正健壮的语音模型，我们需要很多音素，它是一个音节，由具有特定语调的特定声音说出。所以我们需要很多人说话，说事情，这样我们最终可以训练出来。 ……所以 1-800-GOOG-411 就是这样：获取一堆不同的语音样本，这样当你打电话或我们试图从视频中提取语音时，我们可以高精度地做到这一点。

这项专利可能会被提交，以便可以推出像 Goog 411 这样的东西，这就是为什么 2016 年专利的申请日期令人惊讶的原因。该专利位于：

企业或个人列表搜索
发明人：Brian Strope、William J. Byrne 和 Francoise Beaufays
受让人：GOOGLE LLC
美国专利：10,026,402
授予日期：2018 年 7 月 17 日
提交时间：2016 年 10 月 3 日

抽象的

一种使用语音命令搜索企业列表的方法包括通过互联网从用户终端接收用户说出的查询，该查询包括表示商品类别的语音、表示商品项目的语音以及代表地理位置的语音。该方法包括基于表示地理位置的语音用语音识别引擎识别地理位置，基于表示商品类别的语音用语音识别引擎识别商品类别，用语音识别商品项目基于代表商品的语音的识别引擎，在识别的地理位置内或附近搜索企业列表以选择响应用户说出的查询的企业，并向用户发送与至少一些相关的终端信息反应灵敏的企业。

语音搜索要点

我在 USPTO 网站上的 PAIR（专利申请信息检索）数据库中查看了该专利，以了解更多相关信息。 PAIR 数据库包含专利申请中的诉讼记录，包括驳回等事项。该专利被驳回，并在其被授予之前修改了权利要求。该专利的早期版本于 2015 年以企业列表搜索的名义提交，并已获得批准。谷歌撤回了该专利的那个版本，以便可以改为授予该版本。两者之间似乎没有太多区别。我有些期望谷歌可能会使用他们从运行 Goog 411 中收集的语音数据（他们可能已经使用了），但很惊讶没有看到该专利中提到的任何内容。

还有其他涉及语音搜索的专利，这些专利可能值得一看，但这项关于自动商业列表方法的专利似乎确实是有人会提交的那种试图阻止其他人运行 Goog 411 服务的专利。如果 Goog 411 服务是收集基于语音的数据的好方法，而不是阻止其他人收集这样的数据，那可能不是一个坏主意。

谷歌发表的一篇论文与部分作者分享了这项专利，它告诉我们 Goog 411 在导致谷歌语音搜索方面的作用，值得一看。它位于：Google 语音搜索：案例研究。谷歌有更多关于语音搜索的信息，我追踪到了更多专利，这些专利告诉我们更多关于他们一直在研究和研究的内容。

其他语音搜索专利

与其深入研究那些其他专利，我只想在这里列出一些专利，以便任何有兴趣深入研究语音搜索的人都可以这样做。更多的专利集中在语音搜索上，但我没有看到任何关于搜索业务的细节。

自动语言模型更新
发明人：Michael H. Cohen、Shumeet Baluja、Pedro J. Moreno Mengibar
受让人：谷歌有限责任公司（不适用）
美国专利：9,953,636
授予日期：2018 年 4 月 24 日
提交时间：2015 年 10 月 9 日

抽象的

一种用于生成语音识别模型的方法包括访问基线语音识别模型，从搜索查询中获取与最近语言使用相关的信息，以及修改语音识别模型以基于该信息修正一部分声音出现的概率。声音的一部分可以包括单词。此外，一种用于生成语音识别模型的方法包括在搜索引擎处从远程设备接收音频记录和基本上代表音频记录的至少一部分的转录本、将转录本与音频记录同步、提取一个或多个从文字记录中提取字母，从录音中提取一个或多个字母的关联发音，生成发音词典中的词条。

基于注意力的循环神经网络的语音识别
发明人：William Chan、Navdeep Jaitly、Quoc V. Le、Oriol Vinyals 和 Noam M. Shazeer
受让人：谷歌公司
美国专利：
授予日期：2017 年 10 月 24 日
提交时间：2016 年 2 月 26 日

抽象的

方法、系统和装置，包括在计算机存储介质上编码的用于语音识别的计算机程序。一种方法包括获得输入声学序列，该输入声学序列表示话语，并且该输入声学序列包括在第一数量的时间步长中的每一个的相应声学特征表示；使用第一神经网络处理输入声学序列以将输入声学序列转换为输入声学序列的替代表示；使用基于注意力的循环神经网络 (RNN) 处理输入声学序列的替代表示，以针对输出序列顺序中的每个位置生成一组子串分数，其中包括一组中每个子串的相应子串分数子串；并生成表示话语转录的子串序列。

数据驱动的单词发音学习和基于单词音素发音分数的众包评分
发明人：Fuchun Peng、Francoise Beaufays、Brian Strope、Xin Lei、Pedro J. Moreno Mengibar 和 Trevor D. Strohman
受让人：谷歌公司
美国专利：9,741,339
授予日期：2017 年 8 月 22 日
提交时间：2013 年 6 月 28 日

抽象的

用于确定特定术语发音的方法、系统和装置，包括编码在计算机存储介质上的计算机程序。该方法、系统和设备包括获得对应于特定术语的语音的音频样本和获得该特定术语的候选发音的动作。进一步的动作包括为特定术语的每个候选发音和与特定术语对应的语音的音频样本生成反映候选发音和音频样本之间的相似度水平的分数，其中特定术语的所述分数是通过使用包含该术语的音素的最少单个分数获得。额外的动作包括聚合每个候选发音的分数并基于候选发音的聚合分数将特定术语的一个或多个候选发音添加到发音词典中。