自動化されたアシスタントが子供からの問い合わせにどのように応答するか
公開: 2020-03-03自動化されたアシスタントがどのように機能するかについて、Googleからいくつかの特許を見てきました。 これらの特許について私が書いた最近の投稿は次のとおりです。
- 2019年4月4日– Googleでの会話型検索クエリ(以前のセッションのコンテキスト)–以前の会話型クエリのコンテキストデータを使用して、Googleがコンテンツにタグを付けて会話型クエリへの応答を容易にする方法。
- 2019年11月26日– Google自動アシスタント検索結果–自動アシスタントを使用している人との対話の制限について、およびGoogleが検索を提示するために行っているいくつかの適応を見て、Googleがそれらの制限を回避しようとする方法について検索者への結果。
- 2019年12月13日– Googleアシスタントとコンテキストベースの自然言語処理–自動アシスタントについて説明するときに、ダイアログシステムの概念を紹介します。これは、音声ベースのシステムとの人の相互作用を指す専門用語であり、多くの場合、 「チャットボット」としてのインスタンス。 クエリテンプレートとユーザー定義のエンティティとコンテキスト、およびユーザークエリに応答するときにダイアログシステムが従う可能性のあるルールに関する洞察を提供します。
2月に先週付与されたGoogleの新しい特許は、これらの以前の特許のいくつかからのアイデアのいくつかを組み合わせて、自動アシスタントがどのように機能するかについて詳しく説明しています。
人間は、本明細書で「自動アシスタント」(「チャットボット」、「インタラクティブパーソナルアシスタント」、「インテリジェントパーソナルアシスタント」、「パーソナルボイスアシスタント」、「会話型エージェント」など)。 たとえば、人間(自動アシスタントと対話する場合は「ユーザー」と呼ばれる場合があります)は、自由形式の自然言語入力を使用して、コマンド、クエリ、および/または要求(ここではまとめて「クエリ」と呼びます)を提供できます。音声の発話はテキストに変換され、自由形式の自然言語入力が処理および/または入力されます。
この特許は、さまざまな種類の自動アシスタントを対象としていますが、主に人間からの質問や質問に音声で応答するスマートスピーカーに焦点を当てているようです。
この特許はまた、それが子供との相互作用に向けられており、その種の相互作用が子供とうまく機能し続けるための措置を講じることができることを私たちに伝えています。
この特許は、仮説的な例を示すことによって、解決することを意図した問題を表現しています。
アシスタントデバイスは音声の相互作用に重点を置いているため、子供が使用するのに特に適しています。 ただし、市販の自動アシスタントに組み込まれている、またはそれ以外の方法でアクセスできる多くの機能は、子供には適していない場合があります。
- たとえば、子供が歯の妖精が本物かどうかを尋ねる場合、従来の自動アシスタントはオンラインにあるドキュメントに基づいている可能性があります。 。」
- 別の例として、自動アシスタントは、ユーザーがピザ、映画、おもちゃなどの商品/サービスを注文できるようにするサードパーティアプリケーションなどの独立したエージェントと連携するように構成できます。このタイプの機能は、彼らの行動のすべての結果を判断することができないかもしれない子供たち。
- さらに、従来の自動アシスタントは、語彙が完全に発達した人々と対話するように設計されています。 ユーザーの入力が十分に明確でない場合、自動アシスタントは、ユーザーの意図に関する「最良の推測」に基づいてユーザーの要求を解決しようとするのではなく、明確化および/または曖昧性解消を要求する場合があります。 そのような長い往復は、さまざまなコンピュータおよび/またはネットワークリソースの過度の消費を引き起こす可能性があり(たとえば、明確化の要求を生成およびレンダリングした結果、および/または結果の入力を処理した結果)、および/または語彙が限られている子供にとってイライラする可能性があります。
子供のための自動アシスタント
この特許は、自動アシスタントを利用している人の検出された年齢範囲または語彙レベルに基づいて、動作を調整することを示しています。 子供とやり取りする場合は「キッズモード」、子供と見なされていない人(10代以上)とやり取りする場合は「通常」または「大人」モードなど、特定のモードを使用する場合があります。自動化されたアシスタントは、それぞれが特定の年齢範囲またはいくつかの語彙レベルに関連付けられた一連のモード間を移行できる可能性があることを示しています。
これは、次のことを試みるときに実行される場合があります。
(i)ユーザーの意図を認識する
(ii)ユーザーの意図を解決する
(iii)ユーザーの意図を解決した結果をどのように出力するかを決定します。
自動アシスタントは、次の場合に説明を要求することがあります。
- ユーザーのスピーチは、そのようなデバイスの平均的なユーザーのスピーチよりも明瞭ではありません(たとえば、後続のユーザーが幼児の場合、スピーチの明瞭さに影響を与える障害があります
- ユーザーは非ネイティブスピーカーです
アシスタントが対応しようとするのは、年齢と語彙のレベルだけではありません。 この特許は、性別、場所など、他のユーザー特性を理解しようとする可能性があることを示しています。
それらはまた、助手の行動に影響を与える可能性があります。 自動化されたアシスタントは、より高度な語彙を持つ若いユーザーと、大人の語彙を持っているが語彙が限られている年配のユーザーを認識しようとします。
多くの特許と同様に、これには実装可能ないくつかのオプションが含まれており、次のことがわかります。
いくつかの実装形態では、親または他の大人(例えば、保護者、教師)は、自動アシスタントを手動でキッズモードに移行することができる。例えば、オンデマンドおよび/または子供が自動アシスタントに従事する可能性が高いスケジュールされた時間間隔中に。
自動化されたアシスタントは、次のような特性を調べることにより、ユーザーの年齢範囲を自動的に検出しようとする場合があります。
- ケイデンス
- ピッチ
- 音素
- ボキャブラリー
- 文法
- 発音
- 等。
機械学習モデルを使用して、ユーザーの年齢を適切に予測することができます。
また、自動アシスタントは音声認識を使用して、個々の話者を区別および識別することができると言われています。 (私は私の家にスピーカーを追加しました、そしてグーグルは私の声で訓練するために私にいくつかの行を繰り返させました、それで彼らはこれをしているようです。)
年齢決定が自動アシスタントにどのような影響を与える可能性がありますか?
- 自動化されたアシスタントは、話者が成人またはその他の熟練した話者であると判断された場合よりも、どの発話が呼び出しフレーズとして適格であるかについてより厳格でない場合があります。
- 1つまたは複数のオンデバイスモデル(例えば、訓練された人工知能モデル)を、例えば、クライアントデバイス上でローカルに使用して、所定の呼び出しフレーズを検出することができる。
- 話者が子供であることが検出された場合、子供向けに特別に設計された呼び出しモデルを使用できます。
- 単一の呼び出しモデルがすべてのユーザーに使用される場合、ユーザーの発話を適切な呼び出しとして分類するために満たす必要のある1つ以上のしきい値を下げることができます。たとえば、子供の誤った呼び出しの試みが
- それにもかかわらず、適切な呼び出し句として分類されます。
電話でアシスタントに「GiddyGat」の音を聞いたところ、子猫について尋ねていることがわかりました。
モデルを理解するクエリ
自動アシスタントは、自動アシスタントのユーザーの年齢範囲に基づいて、クエリの背後にある意図を異なる方法で理解する場合もあります。
別の例として、ユーザの推定年齢範囲および/または語彙レベルは、ユーザの意図を検出する際に使用され得る。 さまざまな実装では、それぞれが特定の年齢範囲に関連付けられた1つ以上の候補「クエリ理解モデル」を自動アシスタントで使用できる場合があります。 各クエリ理解モデルは、ユーザーの意図を判断するために使用できますが、他のクエリ理解モデルとは動作が異なる場合があります。 大人向けに設計された「標準」のクエリ理解モデルは、たとえば「子供」のクエリ理解モデルに関連付けられた文法的許容度よりも低い特定の「文法的許容度」を持っている場合があります。 たとえば、子供のクエリ理解モデルには、文法上の許容範囲(たとえば、最小信頼しきい値)があり、ユーザーの文法/語彙が不完全な場合でも、自動アシスタントがユーザーの意図を「推測」するためのかなりの余裕があります。幼児の場合。 対照的に、自動アシスタントが「標準」クエリ理解モデルを選択すると、文法的許容度が低くなる可能性があるため、「推測」したり、比較的低いものを選択したりするよりも、曖昧さ回避や明確化をユーザーに求める方が早い場合があります。ユーザーの実際の意図としての信頼候補の意図。
音声からテキストへの処理
私の電話では、アシスタントに「ニャーと鳴く」ように頼むとわかります。 そのリクエストを「子猫のようにニャー」と書き写していて、猫の鳴き声が聞こえます。
特許によれば、「申し訳ありませんが、聞き取れませんでした」などの文言でリクエストを拒否する場合があります。
しかし、この特許は、子供がそのような要求をしていることを検出した場合、そのような要求を理解できると私たちに伝えています。
同様に、自然言語理解モジュールは、子供中心のクエリ理解モデルを利用してテキスト「giggy」を「キティ」として解釈する場合がありますが、大人中心のクエリ理解モデルを使用した場合、「giggy」という用語は解釈できない場合があります。
私が子猫を「目がくらむ」と呼んでいることを理解し、私に答えてくれるのは興味深いことです。
この特許は、子供たちと一緒に仕事をするときはもっと積極的であり、何が求められているのかを理解しようとすることをいとわないことを示しています。
一般的に言えば、本開示の選択された態様で構成された自動化された助手は、従来の自動化された助手よりも子供と関わりを持つときに、より積極的であり得る。 たとえば、前述のように、子供の意図が何であるかを「推測」する方が進んでいる可能性があります。 さらに、自動化されたアシスタントは、子の話者を検出したときに呼び出しフレーズを要求することについて怠惰になる可能性があります。 例えば、いくつかの実装形態では、子供が動物の名前を叫ぶ場合、自動化されたアシスタントは、話者が子供であると判断すると、子供が呼び出しフレーズを話すという要件を放棄し、代わりに動物が発する音を模倣することができる。 さらに、または自動化されたアシスタントは、例えば、文法的に正しくないおよび/または誤って発音された発話に応答して、子供に適切な文法、発音、および/または語彙を「教える」ことを試みることができる。
子供に適さないリクエスト
自動化されたアシスタントは子供に対してより寛容であるかもしれませんが、ユーザーの予測される年齢範囲に基づいて、子供にも適切でない情報を提供しない場合があります。 それは:
- ユーザーの要求に応じて情報を取得するために使用する可能性のあるデータのオンラインコーパスを制限し、子供向けのサイトをホワイトリストに登録し、子供向けのサイトをブラックリストに登録します
- 音楽を再生するリクエストは、再生される音楽を、一般的に高齢者を対象とした音楽を含む成人中心のライブラリではなく、子供向けの音楽のライブラリに制限する場合があります
- プレイリストやアーティストの指定を必要とせず、ユーザーが検出した年齢に適した音楽を再生するだけの場合もあります
- 「音楽を再生する」という大人の要求により、自動アシスタントが再生する音楽に関する追加情報を探す場合があります。
- サードパーティのアプリケーションを介した商品/サービスの注文などのアクションは、子供には適さない場合があり、子供との関わりの際に拒否される場合があります(たとえば、費用がかかる、またはエンゲージメントを促進する可能性のあるさまざまなアクションの実行を拒否するオンラインで見知らぬ人と)
自動化されたアシスタントが使用する声は、漫画のキャラクターの声など、子供と対話するときに異なる場合があり、遅いペースで話す場合があります。
自動アシスタントのユーザーの予測年齢に基づいて、さまざまな自然言語モデルを使用することもできます。 大人の場合、より長く、より複雑な文が使用される場合があります。 子供たちの場合、自動化されたアシスタントは、子供たちにもそれらを使用するように促すために、より完全な文章で話すことができます。 複雑な単語は、子供と関わるときにも自動アシスタントによって完全に説明される場合があります。
自動アシスタントは、子供にも適したスラングや用語を使用することもできます。
「大人の英語から簡単な英語へ」の翻訳システムなどの翻訳サービスは、Webページから若いユーザーに情報を返すときにも使用できます。
自動アシスタントの子供ユーザーに関する成人向けデータ
この特許は、子供が自動アシスタントを使用していることを大人に伝える機能が組み込まれている可能性があることを示しています。
いくつかの実装形態では、自動化されたアシスタントは、子供の文法的および/または語彙の進歩について報告するように構成され得る。 たとえば、自動アシスタントが大人と関わっていると判断した場合、または特に親の声を認識した場合、大人/親ユーザーは、自動アシスタントとの対話における1人以上の子供の進捗状況について自動アシスタントに尋ねることができます。 さまざまな実装において、自動アシスタントは、子供が発音を間違えたり苦労したりする傾向がある単語や音節、吃音の傾向が子供で検出されるかどうか、子供が尋ねた質問、方法などの問い合わせに応じてさまざまなデータを提供することができます子供はインタラクティブゲームなどで進歩しました。
この自動アシスタントの特許は次の場所にあります。
複数の年齢層および/または語彙レベルに対応する自動アシスタント
発明者:Pedro Gonnet Anders、Victor Carbune、Daniel Keysers、Thomas Deselaers、Sandro Feuz
譲受人:GOOGLE LLC
米国特許:10,573,298
付与:2020年2月25日
提出日:2018年4月16日
概要
自動アシスタントが、自動アシスタントに従事しているユーザの検出された年齢範囲および/または「語彙レベル」に応じてその動作を調整できるようにするための技術が本明細書に記載されている。 様々な実装形態において、ユーザの発話を示すデータは、ユーザの年齢範囲および/または語彙レベルのうちの1つまたは複数を推定するために使用され得る。 推定年齢範囲/語彙レベルは、自動アシスタントによって採用されるデータ処理パイプラインのさまざまな側面に影響を与えるために使用できます。 さまざまな実装において、ユーザーの年齢範囲/語彙レベルによって影響を受ける可能性のあるデータ処理パイプラインの側面には、自動アシスタント呼び出し、音声合成(「STT」)処理、インテントマッチング、インテント解決(またはフルフィルメント)、自然言語生成、および/またはテキスト読み上げ(「TTS」)処理。 いくつかの実装形態では、文法的許容度、語彙的許容度など、これらの態様の1つまたは複数に関連する1つまたは複数の許容度しきい値を調整することができる。
特許の詳細な説明の部分では、年齢または語彙に関連するモードがどのように選択されるか、情報の要求の呼び出しをよりよく理解するためにユーザーの声でトレーニングする方法、およびそのような要求に応答する方法について、より多くの詳細と例を提供します適切な言語能力。
この特許は、自動アシスタントを使用した音声合成を含むテキスト読み上げについて説明しています。
自然言語理解に関する情報もあります。特許の詳細な説明の部分を読んで、人間とのコミュニケーションを改善するために人間とのコミュニケーションをどのように試みているかをよりよく理解することをお勧めします。 自動化されたアシスタントに柔軟性が組み込まれていて、子供が利用できるようにする方法を見てきたことは、Googleがそのようなシステムを家族に役立つようにするために取り組んでいる取り組みを示しています。
2020年8月5日追加:私がブログに書いた子供たちの検索に関する別のGoogle特許。これは、コンテンツベースの評価と検索結果のフィルタリング、Googleの若者向けコンテンツスコアについて調べる価値がありますか?

