自动助理如何回应儿童的询问

已发表: 2020-03-03

我们一直在看到谷歌的一些关于他们的自动化助手如何工作的专利。 我最近写的关于这些专利的帖子包括:

  • 2019 年 4 月 4 日 – Google 的会话搜索查询(来自先前会话的上下文)– Google 如何使用来自先前会话查询的上下文数据标记内容以更轻松地响应会话查询。
  • 2019 年 11 月 26 日——谷歌自动助理搜索结果——关于与使用自动助理的人对话的限制,以及谷歌如何尝试解决这些限制,看看谷歌为呈现搜索所做的一些调整结果给搜索者。
  • 2019 年 12 月 13 日——谷歌助手和基于上下文的自然语言处理——在讨论自动助手时引入了对话系统的概念,这是一个技术术语,指的是一个人与基于语音的系统的交互,在某些情况下通常称为实例为“聊天机器人”。 提供对查询模板和用户定义的实体和上下文的一些见解,以及对话系统在响应用户查询时可能遵循的规则。

谷歌在 2 月的最后一周获得了一项新专利,结合了之前专利中的一些想法,以更多地解释自动化助手的工作原理:

人类可以使用此处称为“自动助理”(也称为“聊天机器人”、“交互式个人助理”、“智能个人助理”、“个人语音助理”、“会话代理”等)。 例如,人类(当他们与自动助理交互时可以被称为“用户”)可以使用自由形式的自然语言输入提供命令、查询和/或请求(在本文中统称为“查询”),其可以包括语音转换为文本,然后处理和/或键入自由形式的自然语言输入。

该专利可以涵盖一系列不同类型的自动助手,但似乎主要集中在智能扬声器上,这些扬声器可以对人类的问题和查询做出语音响应。

该专利还告诉我们,它面向与儿童的互动,并且可能会采取措施使这种互动与儿童保持良好的互动。

该专利通过给我们一个假设的例子来表达它打算解决的问题:

辅助设备对声音交互的关注使它们特别适合儿童使用。 然而,许多内置于或以其他方式使用市售自动化助手可访问的功能可能不适合儿童。

  • 例如,如果孩子要问牙仙子是否真实,传统的自动助手可能会根据在线文档回答:“不,牙仙子是父母唤起的一个虚构角色,以激励孩子拔掉松动的牙齿。”
  • 再举一个例子,自动化助手可以配置为与独立代理(例如第三方应用程序)互动,使用户能够订购商品/服务,例如比萨饼、电影、玩具等——这种类型的功能可以由可能无法判断其行为的所有后果的儿童。
  • 此外,传统的自动化助手旨在与拥有完全发展的词汇表的人进行交互。 如果用户的输入不够清楚,则自动助理可以请求澄清和/或消除歧义,而不是尝试基于对用户意图的“最佳猜测”来解决用户的请求。 如此长的来回可能会导致对各种计算机和/或网络资源的过度消耗(例如,由于生成和呈现澄清请求和/或处理所得输入的结果)和/或可能使词汇量有限的儿童感到沮丧.

儿童自动化助手

该专利告诉我们,它将根据检测到的年龄范围或使用自动助手的人的词汇水平来调整其行为方式。 它可能会使用特定模式,例如与儿童互动时使用“儿童模式”,而与未被视为儿童(青少年及以上)的人互动时使用“正常”或“成人”模式。告诉我们,自动助理可能能够在一系列模式之间转换,每个模式都与特定的年龄范围或几个词汇水平相关。

它可能会在尝试执行以下操作时执行此操作:

(i) 识别用户的意图
(ii) 解析用户的意图
(iii) 决定如何输出解析用户意图的结果。

在某些情况下,自动化助理可能会要求澄清:

  • 用户的语音不如此类设备的普通用户清晰(例如,当后续用户是年幼的孩子时,会影响他们语音的清晰度
  • 用户是非母语人士

年龄和词汇水平并不是助理可能试图适应的唯一因素。 该专利告诉我们,它可能会尝试了解其他用户特征,例如性别、位置等,

这些也可能会影响助手的行为。 自动助手将尝试了解具有更高级词汇表的年轻用户,以及具有成人声音但词汇量有限的老年用户。

与许多专利一样,该专利包含一些可以实施的选项,它告诉我们:

在一些实施方式中,父母或其他成年人(例如监护人、教师)可以手动将自动助手转换为儿童模式,例如按需和/或在儿童可能与自动助手互动的预定时间间隔期间.

自动助理可能会尝试通过查看以下特征来自动检测用户的年龄范围:

  • 节奏
  • 沥青
  • 音素
  • 词汇
  • 语法
  • 发音
  • 等等。

机器学习模型可用于尝试预测用户的年龄。

我们还被告知,自动助理可能会使用语音识别来区分和识别各个说话者。 (我在家里添加了一个扬声器,谷歌让我重复一些台词来训练我的声音,所以他们似乎正在这样做。)

年龄确定对自动助理有什么影响?

  • 与确定说话者是成年人或其他方面的熟练说话者相比,自动助理对于哪些话语符合调用短语的条件可能没有那么严格。
  • 可以使用一个或多个设备上模型(例如,经过训练的人工智能模型),例如,本地在客户端设备上,以检测预定的调用短语。
  • 如果检测到说话者是儿童,则可以采用专门为儿童设计的调用模型。
  • 如果对所有用户使用单个调用模型,则必须满足一个或多个阈值才能将用户的话语归类为正确调用,例如,可以降低孩子错误发音的调用尝试
  • 尽管如此,仍被归类为适当的调用短语。

我只是在我的手机上问我的助手“Giddy Gat”听起来像什么,它意识到我在问一只小猫。

查询理解模型

自动助理也可能会根据自动助理用户的年龄范围以不同方式理解查询背后的意图:

作为另一示例,用户的估计年龄范围和/或词汇水平可用于检测用户的意图。 在各种实现中,一个或多个候选“查询理解模型”,每个都与特定年龄范围相关联,可供自动化助理使用。 每个查询理解模型可用于确定用户的意图,但其操作方式可能与其他查询理解模型不同。 为成人设计的“标准”查询理解模型可能具有比例如与“儿童”查询理解模型相关联的语法容忍度低的特定“语法容忍度”。 例如,孩子的查询理解模型可能具有语法容忍度(例如,最小置信度阈值),即使在用户的语法/词汇不完美时,自动化助手也有相当大的余地来“猜测”用户的意图,这通常是与幼儿的情况。 相比之下,当自动助理选择“标准”的查询理解模型时,它可能具有较低的语法容忍度,因此可能会更快地向用户寻求消歧和/或澄清,而不是“猜测”或选择相对较低的信任候选意图作为用户的实际意图。

语音转文本处理

在我的手机上,我可以看到我让我的助手“像头晕目眩一样喵喵叫”。 它正在将该请求转录为“像小猫一样喵喵叫”,它给了我猫的声音。

该专利表示,在某些情况下,它可能会拒绝请求,并附上诸如“对不起,我没听清”之类的声明。

但是,该专利告诉我们,如果它检测到孩子正在提出这样的请求,它可能会理解这样的请求:

同样,自然语言理解模块可以利用以儿童为中心的查询理解模型将文本“giggy”解释为“kitty”,而如果使用以成人为中心的查询理解模型,则术语“giggy”可能无法解释。

有趣的是,它理解我称小猫为“头晕目眩”并回答我。

该专利告诉我们,在与孩子们一起工作时,它可能会更加积极主动,并愿意尝试了解人们对它的要求:

一般而言,配置有本公开的选定方面的自动助理在与儿童互动时可能比传统自动助理更主动。 例如,如前所述,它可能更愿意“猜测”孩子的意图是什么。 此外,当自动助理检测到儿童说话者时,它可能会更宽松地要求调用短语。 例如,在一些实施方式中,如果孩子喊出动物的名字,则在确定说话者是孩子时,自动助理可以放弃孩子说出祈求短语的要求,而是可以模仿动物发出的声音。 此外,自动助理可以尝试“教”儿童正确的语法、发音和/或词汇,例如,响应语法上不正确和/或发音错误的话语。

不适合儿童的要求

虽然自动化助手可能对儿童更宽容,但根据用户的预测年龄范围,它也可能不会提供不适合儿童的信息。 有可能:

  • 限制一些可能用于检索响应用户请求的信息的在线数据语料库,将一些对儿童友好的网站列入白名单,并将一些对儿童不友好的网站列入黑名单
  • 播放音乐的请求可能会将播放的音乐限制为适合儿童的音乐库,而不是包含通常针对老年人的音乐的以成人为中心的库
  • 它可能不需要指定播放列表或艺术家,可能只播放适合用户检测到的年龄的音乐
  • 成年人“播放音乐”的请求可能会导致自动助手寻求有关播放音乐的其他信息
  • 通过第三方应用程序订购商品/服务等行为可能不适合儿童,并且在与儿童互动时可能会被拒绝,(拒绝执行各种可能需要花钱或促进参与的行为)与陌生人在线)

与孩子互动时,自动助理使用的声音可能会有所不同,例如卡通人物的声音,并且可能会说话的速度较慢。

也可以基于预测的自动助理用户的年龄来使用不同的自然语言模型。 对于成年人,可以使用更长更复杂的句子。 对于儿童,自动助手可能会用更完整的句子说话,以鼓励孩子们也使用这些句子。 在与孩子互动时,自动助手也可以完全解释复杂的单词。

自动助理也可以选择使用适合儿童的俚语和术语。

当从网页向年轻用户返回信息时,也可以使用翻译服务,例如“成人英语到简单英语”翻译系统。

成人关于自动助理儿童用户的数据

该专利告诉我们,它可以内置一项功能,告诉成人儿童使用自动助手的情况:

在一些实施方式中,自动化助理可以被配置为报告儿童的语法和/或词汇进展。 例如,当自动助理确定它与成人互动时,或者尤其是当它识别出父母的声音时,成人/父母用户可以询问自动助理关于一个或多个儿童与自动助理交互的进展。 在各种实施方式中,自动助理可以响应这样的询问提供各种数据,例如孩子倾向于错误发音或挣扎的单词或音节、是否在孩子中检测到口吃倾向、孩子问了什么问题、如何孩子在互动游戏等方面取得了进步。

可以在以下位置找到此自动化助手专利:

适应多个年龄组和/或词汇水平的自动化助手
发明人:Pedro Gonnet Anders、Victor Carbune、Daniel Keysers、Thomas Deselaers 和 Sandro Feuz
受让人:GOOGLE LLC
美国专利:10,573,298
授予时间:2020 年 2 月 25 日
提交时间:2018 年 4 月 16 日

抽象的

本文描述了用于使自动化助理能够根据检测到的年龄范围和/或与自动化助理互动的用户的“词汇水平”来调整其行为的技术。 在各种实施方式中,可以使用指示用户话语的数据来估计用户的年龄范围和/或词汇水平中的一个或多个。 估计的年龄范围/词汇水平可用于影响自动助理所采用的数据处理管道的各个方面。 在各种实施方式中,可能受用户年龄范围/词汇水平影响的数据处理管道的方面可以包括以下一项或多项:自动助理调用、语音到文本(“STT”)处理、意图匹配、意图解析(或实现)、自然语言生成和/或文本到语音(“TTS”)处理。 在一些实施方式中,可以调整与这些方面中的一个或多个相关联的一个或多个容限阈值,例如语法容限、词汇容限等。

该专利的详细描述部分提供了更多关于如何选择与年龄或词汇相关的模式的详细信息和示例,以及如何使用用户语音对其进行训练以更好地理解对信息请求的调用,以及如何响应此类请求适当的语言能力。

该专利讨论了文本到语音的语音合成,涉及使用自动助手进行语音合成。

还有关于自然语言理解的信息,建议阅读专利的详细描述部分,以更好地了解它是如何尝试与人类交流以更好地与他们交流的。 看到自动助理如何内置灵活性以使其可供儿童使用,这表明谷歌正在努力使这样一个系统对家庭有用。

2020 年 8 月 5 日添加:另一项关于搜索儿童的 Google 专利,我已在博客中提及,值得查看以了解基于内容的评级和搜索结果过滤,Google 的面向青年的内容分数?