自動助理如何回應兒童的詢問

已發表: 2020-03-03

我們一直在看到谷歌的一些關於他們的自動化助手如何工作的專利。 我最近寫的關於這些專利的帖子包括:

  • 2019 年 4 月 4 日 – Google 的會話搜索查詢(來自先前會話的上下文)– Google 如何使用來自先前會話查詢的上下文數據標記內容以更輕鬆地響應會話查詢。
  • 2019 年 11 月 26 日——谷歌自動助理搜索結果——關於與使用自動助理的人對話的限制,以及谷歌如何嘗試解決這些限制,看看谷歌為呈現搜索所做的一些調整結果給搜索者。
  • 2019 年 12 月 13 日——谷歌助手和基於上下文的自然語言處理——在討論自動助手時引入了對話系統的概念,這是一個技術術語,指的是一個人與基於語音的系統的交互,在某些情況下通常稱為實例為“聊天機器人”。 提供對查詢模板和用戶定義的實體和上下文的一些見解,以及對話系統在響應用戶查詢時可能遵循的規則。

谷歌在 2 月的最後一周獲得了一項新專利,結合了之前專利中的一些想法,以更多地解釋自動化助手的工作原理:

人類可以使用此處稱為“自動助理”(也稱為“聊天機器人”、“交互式個人助理”、“智能個人助理”、“個人語音助理”、“會話代理”等)。 例如,人類(當他們與自動助理交互時可以被稱為“用戶”)可以使用自由形式的自然語言輸入提供命令、查詢和/或請求(在本文中統稱為“查詢”),其可以包括語音轉換為文本,然後處理和/或鍵入自由形式的自然語言輸入。

該專利可以涵蓋一系列不同類型的自動助手,但似乎主要集中在智能揚聲器上,這些揚聲器可以對人類的問題和查詢做出語音響應。

該專利還告訴我們,它面向與兒童的互動,並且可能會採取措施使這種互動與兒童保持良好的互動。

該專利通過給我們一個假設的例子來表達它打算解決的問題:

輔助設備對聲音交互的關注使它們特別適合兒童使用。 然而,許多內置於或以其他方式使用市售自動化助手可訪問的功能可能不適合兒童。

  • 例如,如果孩子要問牙仙子是否真實,傳統的自動助手可能會根據在線文檔回答:“不,牙仙子是父母喚起的一個虛構角色,以激勵孩子拔掉鬆動的牙齒。”
  • 再舉一個例子,自動化助手可以配置為與獨立代理(例如第三方應用程序)互動,使用戶能夠訂購商品/服務,例如比薩餅、電影、玩具等——這種類型的功能可以由可能無法判斷其行為的所有後果的兒童。
  • 此外,傳統的自動化助手旨在與擁有完全發展的詞彙表的人進行交互。 如果用戶的輸入不夠清楚,則自動助理可以請求澄清和/或消除歧義,而不是嘗試基於對用戶意圖的“最佳猜測”來解決用戶的請求。 如此長的來回可能會導致對各種計算機和/或網絡資源的過度消耗(例如,由於生成和呈現澄清請求和/或處理所得輸入的結果)和/或可能使詞彙量有限的兒童感到沮喪.

兒童自動化助手

該專利告訴我們,它將根據檢測到的年齡範圍或使用自動助手的人的詞彙水平來調整其行為方式。 它可能會使用特定模式,例如與兒童互動時使用“兒童模式”,而與未被視為兒童(青少年及以上)的人互動時使用“正常”或“成人”模式。告訴我們,自動助理可能能夠在一系列模式之間轉換,每個模式都與特定的年齡範圍或幾個詞彙水平相關。

它可能會在嘗試執行以下操作時執行此操作:

(i) 識別用戶的意圖
(ii) 解析用戶的意圖
(iii) 決定如何輸出解析用戶意圖的結果。

在某些情況下,自動化助理可能會要求澄清:

  • 用戶的語音不如此類設備的普通用戶清晰,(例如,當後續用戶是年幼的孩子時,會影響他們語音的清晰度
  • 用戶是非母語人士

年齡和詞彙水平並不是助理可能試圖適應的唯一因素。 該專利告訴我們,它可能會嘗試了解其他用戶特徵,例如性別、位置等,

這些也可能會影響助手的行為。 自動助手將嘗試了解具有更高級詞彙表的年輕用戶,以及具有成人聲音但詞彙量有限的老年用戶。

與許多專利一樣,該專利包含一些可以實施的選項,它告訴我們:

在一些實施方式中,父母或其他成年人(例如監護人、教師)可以手動將自動助手轉換為兒童模式,例如按需和/或在兒童可能與自動助手互動的預定時間間隔期間.

自動助理可能會嘗試通過查看以下特徵來自動檢測用戶的年齡範圍:

  • 節奏
  • 瀝青
  • 音素
  • 詞彙
  • 語法
  • 發音
  • 等等。

機器學習模型可用於嘗試預測用戶的年齡。

我們還被告知,自動助理可能會使用語音識別來區分和識別各個說話者。 (我在家裡添加了一個揚聲器,谷歌讓我重複一些台詞來訓練我的聲音,所以他們似乎正在這樣做。)

年齡確定對自動助理有什麼影響?

  • 與確定說話者是成年人或其他方面的熟練說話者相比,自動助理對於哪些話語符合調用短語的條件可能沒有那麼嚴格。
  • 可以使用一個或多個設備上模型(例如,經過訓練的人工智能模型),例如,本地在客戶端設備上,以檢測預定的調用短語。
  • 如果檢測到說話者是兒童,則可以採用專門為兒童設計的調用模型。
  • 如果對所有用戶使用單個調用模型,則必須滿足一個或多個閾值才能將用戶的話語歸類為正確調用,例如,可以降低孩子錯誤發音的調用嘗試
  • 儘管如此,仍被歸類為適當的調用短語。

我只是在我的手機上問我的助手“Giddy Gat”聽起來像什麼,它意識到我在問一隻小貓。

查詢理解模型

自動助理也可能會根據自動助理用戶的年齡範圍以不同方式理解查詢背後的意圖:

作為另一示例,用戶的估計年齡範圍和/或詞彙水平可用於檢測用戶的意圖。 在各種實現中,一個或多個候選“查詢理解模型”,每個都與特定年齡範圍相關聯,可供自動化助理使用。 每個查詢理解模型可用於確定用戶的意圖,但其操作方式可能與其他查詢理解模型不同。 為成人設計的“標準”查詢理解模型可能具有比例如與“兒童”查詢理解模型相關聯的語法容忍度低的特定“語法容忍度”。 例如,孩子的查詢理解模型可能具有語法容忍度(例如,最小置信度閾值),即使在用戶的語法/詞彙不完美時,自動化助手也有相當大的餘地來“猜測”用戶的意圖,這通常是與幼兒的情況。 相比之下,當自動助理選擇“標準”的查詢理解模型時,它可能具有較低的語法容忍度,因此可能會更快地向用戶尋求消歧和/或澄清,而不是“猜測”或選擇相對較低的信任候選意圖作為用戶的實際意圖。

語音轉文本處理

在我的手機上,我可以看到我讓我的助手“像頭暈目眩一樣喵喵叫”。 它正在將該請求轉錄為“像小貓一樣喵喵叫”,它給了我貓的聲音。

該專利表示,在某些情況下,它可能會拒絕請求,並附上諸如“對不起,我沒聽清”之類的聲明。

但是,該專利告訴我們,如果它檢測到孩子正在提出這樣的請求,它可能會理解這樣的請求:

同樣,自然語言理解模塊可以利用以兒童為中心的查詢理解模型將文本“giggy”解釋為“kitty”,而如果使用以成人為中心的查詢理解模型,則術語“giggy”可能無法解釋。

有趣的是,它理解我稱小貓為“頭暈目眩”並回答我。

該專利告訴我們,在與孩子們一起工作時,它可能會更加積極主動,並願意嘗試了解人們對它的要求:

一般而言,配置有本公開的選定方面的自動助理在與兒童互動時可能比傳統自動助理更主動。 例如,如前所述,它可能更願意“猜測”孩子的意圖是什麼。 此外,當自動助理檢測到兒童說話者時,它可能會更寬鬆地要求調用短語。 例如,在一些實施方式中,如果孩子喊出動物的名字,則在確定說話者是孩子時,自動助理可以放棄孩子說出祈求短語的要求,而是可以模仿動物發出的聲音。 此外,自動助理可以嘗試“教”兒童正確的語法、發音和/或詞彙,例如,響應語法上不正確和/或發音錯誤的話語。

不適合兒童的要求

雖然自動化助手可能對兒童更寬容,但根據用戶的預測年齡範圍,它也可能不會提供不適合兒童的信息。 有可能:

  • 限制一些可能用於檢索響應用戶請求的信息的在線數據語料庫,將一些對兒童友好的網站列入白名單,並將一些對兒童不友好的網站列入黑名單
  • 播放音樂的請求可能會將播放的音樂限制為適合兒童的音樂庫,而不是包含通常針對老年人的音樂的以成人為中心的庫
  • 它可能不需要指定播放列表或藝術家,可能只播放適合用戶檢測到的年齡的音樂
  • 成年人“播放音樂”的請求可能會導致自動助手尋求有關播放音樂的其他信息
  • 通過第三方應用程序訂購商品/服務等行為可能不適合兒童,並且在與兒童互動時可能會被拒絕,(拒絕執行各種可能需要花錢或促進參與的行為)與陌生人在線)

與孩子互動時,自動助理使用的聲音可能會有所不同,例如卡通人物的聲音,並且可能會說話的速度較慢。

也可以基於預測的自動助理用戶的年齡來使用不同的自然語言模型。 對於成年人,可以使用更長更複雜的句子。 對於兒童,自動助手可能會用更完整的句子說話,以鼓勵孩子們也使用這些句子。 在與孩子互動時,自動助手也可以完全解釋複雜的單詞。

自動助理也可以選擇使用適合兒童的俚語和術語。

當從網頁向年輕用戶返回信息時,也可以使用翻譯服務,例如“成人英語到簡單英語”翻譯系統。

成人關於自動助理兒童用戶的數據

該專利告訴我們,它可以內置一項功能,告訴成人兒童使用自動助手的情況:

在一些實施方式中,自動化助理可以被配置為報告兒童的語法和/或詞彙進展。 例如,當自動助理確定它與成人互動時,或者尤其是當它識別出父母的聲音時,成人/父母用戶可以詢問自動助理關於一個或多個兒童與自動助理交互的進展。 在各種實施方式中,自動助理可以響應這樣的詢問提供各種數據,例如孩子傾向於錯誤發音或掙扎的單詞或音節、是否在孩子中檢測到口吃傾向、孩子問了什麼問題、如何孩子在互動遊戲等方面取得了進步。

可以在以下位置找到此自動化助手專利:

適應多個年齡組和/或詞彙水平的自動化助手
發明人:Pedro Gonnet Anders、Victor Carbune、Daniel Keysers、Thomas Deselaers 和 Sandro Feuz
受讓人:GOOGLE LLC
美國專利:10,573,298
授予時間:2020 年 2 月 25 日
提交時間:2018 年 4 月 16 日

抽象的

本文描述了用於使自動化助理能夠根據檢測到的年齡範圍和/或與自動化助理互動的用戶的“詞彙水平”來調整其行為的技術。 在各種實施方式中,可以使用指示用戶話語的數據來估計用戶的年齡範圍和/或詞彙水平中的一個或多個。 估計的年齡範圍/詞彙水平可用於影響自動助理所採用的數據處理管道的各個方面。 在各種實施方式中,可能受用戶年齡範圍/詞彙水平影響的數據處理管道的方面可以包括以下一項或多項:自動助理調用、語音到文本(“STT”)處理、意圖匹配、意圖解析(或實現)、自然語言生成和/或文本到語音(“TTS”)處理。 在一些實施方式中,可以調整與這些方面中的一個或多個相關聯的一個或多個容限閾值,例如語法容限、詞彙容限等。

該專利的詳細描述部分提供了更多關於如何選擇與年齡或詞彙相關的模式的詳細信息和示例,以及如何使用用戶語音對其進行訓練以更好地理解對信息請求的調用,以及如何響應此類請求適當的語言能力。

該專利討論了文本到語音,涉及使用自動助手進行語音合成。

還有關於自然語言理解的信息,建議閱讀專利的詳細描述部分,以更好地了解它是如何嘗試與人類交流以更好地與他們交流的。 看到自動助理如何內置靈活性以使其可供兒童使用,這表明谷歌正在努力使這樣一個系統對家庭有用。

2020 年 8 月 5 日添加:另一項關於搜索兒童的 Google 專利,我已在博客中提及,值得查看以了解基於內容的評級和搜索結果過濾,Google 的面向青年的內容分數?