Como um assistente automatizado pode responder a perguntas de crianças

Publicados: 2020-03-03

Temos visto algumas patentes do Google sobre como o assistente automatizado funciona. Postagens recentes que escrevi sobre essas patentes incluem:

  • 4 de abril de 2019 - Consultas de pesquisa de conversação no Google (contexto de sessões anteriores) - Como o Google pode marcar conteúdo para tornar mais fácil responder a consultas de conversação, usando dados contextuais de consultas de conversação anteriores.
  • 26 de novembro de 2019 - Resultados da pesquisa do Google Automated Assistant - Sobre as limitações do diálogo com uma pessoa que usa um assistente automatizado e como o Google pode tentar contornar essas limitações, dando uma olhada em algumas das adaptações que o Google tem feito para apresentar a pesquisa resultados para os pesquisadores.
  • 13 de dezembro de 2019 - Google Assistant e Context-Based Natural Language Processing - apresenta o conceito de sistemas de diálogo ao discutir o Assistente automatizado, que é um termo técnico que se refere às interações de uma pessoa com um sistema baseado em voz, frequentemente conhecido como em alguns instâncias como “chatbots”. Fornece alguns insights sobre modelos de consulta e entidades e contextos definidos pelo usuário e as regras que um sistema de diálogo pode seguir ao responder a uma consulta do usuário.

Uma nova patente do Google concedida na última semana de fevereiro combina uma série de ideias de algumas das patentes anteriores para explicar mais sobre como um Assistente Automatizado pode funcionar:

Os humanos podem se envolver em diálogos de homem para computador com aplicativos de software interativos aqui referidos como "assistentes automatizados" (também chamados de "chatbots", "assistentes pessoais interativos", "assistentes pessoais inteligentes", "assistentes de voz pessoais", " agentes conversacionais ”, etc.). Por exemplo, humanos (que quando interagem com assistentes automatizados podem ser referidos como "usuários") podem fornecer comandos, consultas e / ou solicitações (coletivamente referidos neste documento como "consultas") usando entrada de linguagem natural de forma livre que pode incluir expressões vocais convertidas em texto e, em seguida, processadas e / ou digitadas em linguagem natural de forma livre.

Esta patente pode abranger uma gama de diferentes tipos de assistentes automatizados, mas parece se concentrar principalmente em alto-falantes inteligentes que respondem verbalmente a perguntas e dúvidas de humanos.

Esta patente também nos diz que é voltada para interações com crianças e que pode tomar medidas para manter esse tipo de interação funcionando bem com crianças.

A patente expressa os problemas que se pretendia resolver, dando-nos um exemplo hipotético:

O foco dos dispositivos assistentes na interação vocal os torna especialmente adequados para uso por crianças. No entanto, muitos recursos integrados ou de outra forma acessíveis por meio de assistentes automatizados disponíveis comercialmente podem não ser adequados para crianças.

  • Por exemplo, se uma criança perguntar se a Fada do Dente é real, um assistente automatizado convencional pode se basear em documentos localizados online, responda: “Não, a Fada do Dente é um personagem imaginário evocado pelos pais para incentivar as crianças a arrancar os dentes . ”
  • Como outro exemplo, um assistente automatizado pode ser configurado para se envolver com agentes independentes, como aplicativos de terceiros, que permitem aos usuários solicitar bens / serviços, como pizza, filmes, brinquedos, etc. - este tipo de recurso pode ser usado por crianças que podem não ser capazes de julgar todas as consequências de suas ações.
  • Além disso, os assistentes automatizados convencionais são projetados para interagir com pessoas com vocabulários totalmente desenvolvidos. Se a entrada de um usuário não for suficientemente clara, o assistente automatizado pode solicitar esclarecimento e / ou desambiguação, em vez de tentar resolver a solicitação do usuário com base em uma "melhor estimativa" quanto à intenção do usuário. Essas idas e vindas demoradas podem causar consumo excessivo de vários recursos de computador e / ou rede (por exemplo, como resultado da geração e processamento dos pedidos de esclarecimento e / ou processamento da entrada resultante) e / ou talvez frustrante para crianças com vocabulários limitados .

Assistentes automatizados para crianças

A patente nos diz que ajustará como se comporta com base em uma faixa etária detectada ou nível de vocabulário de alguém que está contratando um assistente automatizado. Ele pode usar um modo específico, como um "modo infantil" ao interagir com crianças e um modo "normal" ou "adulto" ao interagir com alguém que não foi considerado criança (adolescentes e mais velhos). A patente nos diz que um assistente automatizado pode ser capaz de fazer a transição entre uma série de modos, cada um associado a uma faixa etária específica ou a vários níveis de vocabulário.

Ele pode fazer isso quando tentar:

(i) Reconhecer a intenção do usuário
(ii) Resolver a intenção do usuário
(iii) Decida como os resultados da resolução da intenção do usuário são produzidos.

Um assistente automatizado pode solicitar esclarecimentos em alguns casos quando:

  • A fala de um usuário é menos clara do que a do usuário médio de tais dispositivos (por exemplo, quando o usuário subsequente é uma criança pequena, tem uma deficiência que afeta a clareza de sua fala
  • Um usuário é um falante não nativo

Os níveis de idade e vocabulário não são as únicas coisas que um assistente pode tentar acomodar. A patente nos diz que ela pode tentar entender outras características do usuário, como gênero, localização, etc.,

Isso também pode influenciar o comportamento de um assistente. O assistente automatizado tentará estar ciente de usuários jovens com vocabulários mais avançados e usuários mais velhos com vozes de adulto, mas vocabulários limitados.

Como muitas patentes, esta contém algumas opções que podem ser implementadas e nos diz que:

Em algumas implementações, os pais ou outros adultos (por exemplo, tutores, professores) podem fazer a transição manual do assistente automatizado para o modo infantil, por exemplo, sob demanda e / ou durante intervalos de tempo programados durante os quais as crianças provavelmente estarão engajadas com o assistente automatizado .

Um assistente automatizado pode tentar detectar automaticamente a faixa etária de um usuário observando características como:

  • Cadência
  • Tom
  • Fonemas
  • Vocabulário
  • Gramática
  • Pronúncia
  • Etc.

Um modelo de aprendizado de máquina pode ser usado para tentar prever bem a idade de um usuário.

Também somos informados de que o reconhecimento de voz pode ser usado por assistentes automatizados para distinguir e identificar falantes individuais. (Eu adicionei um alto-falante à minha casa e o Google me fez repetir algumas linhas para treinar minha voz, então parece que eles estão fazendo isso.)

Que impacto uma determinação de idade pode ter em um assistente automatizado?

  • O assistente automatizado pode ser menos rígido sobre quais enunciados serão qualificados como frases de invocação do que se o falante for considerado um adulto ou um falante proficiente.
  • Um ou mais modelos no dispositivo (por exemplo, modelos de inteligência artificial treinados) podem ser usados, por exemplo, localmente no dispositivo do cliente, para detectar frases de invocação predeterminadas.
  • Se for detectado que o falante é uma criança, um modelo de invocação projetado especificamente para crianças pode ser empregado.
  • Se um único modelo de invocação for usado para todos os usuários, um ou mais limites que devem ser satisfeitos para classificar a expressão de um usuário como uma invocação adequada podem ser reduzidos, por exemplo, para que uma tentativa de invocação mal pronunciada de uma criança possa
  • no entanto, deve ser classificada como uma frase de invocação adequada.

Acabei de perguntar ao meu assistente no meu telefone como soa um “Gatinho vertiginoso”, e ele reconheceu que eu estava perguntando sobre um gatinho.

Modelos de compreensão de consulta

Um Assistente Automatizado também pode compreender a intenção por trás de uma consulta de maneira diferente, com base na faixa etária de um usuário de um Assistente Automatizado:

Como outro exemplo, a faixa etária estimada do usuário e / ou nível de vocabulário pode ser usado para detectar a intenção do usuário. Em várias implementações, um ou mais candidatos "modelos de compreensão de consulta", cada um associado a uma faixa de idade específica, podem estar disponíveis para uso pelo assistente automatizado. Cada modelo de compreensão de consulta pode ser usado para determinar a intenção do usuário, mas pode operar de maneira diferente de outros modelos de compreensão de consulta. Um modelo de compreensão de consulta “padrão” projetado para adultos pode ter uma “tolerância gramatical” particular que é menor do que, por exemplo, uma tolerância gramatical associada a um modelo de compreensão de consulta “infantil”. Por exemplo, o modelo de compreensão de consulta da criança pode ter uma tolerância gramatical (por exemplo, um limite mínimo de confiança) que permite ao assistente automatizado uma margem de manobra considerável para "adivinhar" a intenção do usuário, mesmo quando a gramática / vocabulário do usuário é imperfeito, como normalmente seria o caso com crianças pequenas. Por outro lado, quando o assistente automatizado seleciona o modelo de compreensão de consulta "padrão", ele pode ter uma tolerância gramatical mais baixa e, portanto, pode ser mais rápido buscar desambiguação e / ou esclarecimento do usuário, em vez de "adivinhar" ou selecionar um a intenção do candidato de confiança como a intenção real do usuário.

Processamento de voz para texto

No meu telefone, posso ver quando peço à minha assistente para "miar como uma tonta". que está transcrevendo esse pedido como “miau como um gatinho” e me dá o som de um gato.

A patente diz que, em alguns casos, pode rejeitar uma solicitação com uma declaração como “Desculpe, não entendi”.

No entanto, a patente nos diz que se detectar que uma criança está fazendo tal pedido, ela pode entender tal pedido:

da mesma forma, um módulo de compreensão de linguagem natural pode utilizar um modelo de compreensão de consulta centrado em crianças para interpretar o texto "giggy" como "gatinho", enquanto se um modelo de compreensão de consulta centrado em adultos for usado, o termo "giggy" pode não ser interpretável.

Interessante que ele me entende chamando um gatinho de “tonto” e me responde.

A patente nos diz que ele pode ser mais pró-ativo ao trabalhar com crianças e disposto a tentar entender o que está sendo pedido a ele:

De um modo geral, um assistente automatizado configurado com aspectos selecionados da presente divulgação pode ser mais proativo ao se envolver com crianças do que assistentes automatizados convencionais. Por exemplo, e conforme descrito anteriormente, ele pode estar mais disposto a “adivinhar” qual é a intenção de uma criança. Além disso, o assistente automatizado pode ser mais frouxo quanto à exigência de frases de invocação ao detectar um falante infantil. Por exemplo, em algumas implementações, se uma criança grita o nome de um animal, o assistente automatizado pode, ao determinar que o falante é uma criança, dispensar a exigência de que a criança fale uma frase de invocação e pode, em vez disso, imitar um som que o animal faz. Além disso, o assistente automatizado pode tentar “ensinar” a uma criança gramática, pronúncia e / ou vocabulário adequados, por exemplo, em resposta a um enunciado gramaticalmente incorreto e / ou pronunciado incorretamente.

Pedidos que não são adequados para crianças

Embora um assistente automatizado possa ser mais tolerante com crianças, ele também pode não fornecer informações que não sejam apropriadas para crianças, com base na faixa etária prevista de um usuário. Pode:

  • Limitar alguns corpora de dados on-line que podem ser usados ​​para recuperar informações que atendam a uma solicitação do usuário, colocando alguns sites infantis na lista de permissões e alguns sites infantis hostis
  • Uma solicitação para reproduzir uma música pode limitar a música tocada a uma biblioteca de músicas para crianças, em vez de uma biblioteca voltada para adultos que inclui músicas geralmente voltadas para pessoas mais velhas
  • Pode não exigir a especificação de uma lista de reprodução ou artista e pode apenas reproduzir música apropriada para a idade detectada do usuário
  • A solicitação de um adulto para “tocar música” pode fazer com que um assistente automatizado busque informações adicionais sobre que música tocar
  • Ações, como pedidos de bens / serviços por meio de aplicativos de terceiros, podem não ser adequadas para crianças e podem ser recusadas ao se envolver com uma criança (recusar-se a realizar várias ações que podem, por exemplo, custar dinheiro ou facilitar o envolvimento com estranhos online)

A voz usada por um assistente automatizado pode b diferente ao interagir com uma criança, como a voz de um personagem de desenho animado, e pode falar em um ritmo mais lento.

Diferentes modelos de linguagem natural também podem ser usados ​​com base nas idades previstas dos usuários de assistentes automatizados. Para adultos, frases mais longas e complexas podem ser usadas. Para crianças, o assistente automatizado pode falar em frases mais completas para encorajar as crianças a usá-las também. Palavras complexas também podem ser totalmente explicadas pelo assistente automatizado ao se envolver com uma criança.

O assistente automatizado também pode optar por usar gírias e termos adequados para crianças.

Um serviço de tradução, como um sistema de tradução de “inglês para adultos para inglês simples”, também pode ser usado ao retornar informações de uma página da web a um usuário mais jovem.

Dados para adultos sobre crianças, usuários de assistentes automatizados

A patente nos diz que poderia ter um recurso integrado para informar a um Adulto sobre o uso de um assistente automatizado por uma criança:

Em algumas implementações, o assistente automatizado pode ser configurado para relatar o progresso gramatical e / ou vocabular de uma criança. Por exemplo, quando o assistente automatizado determina que está envolvido com um adulto, ou especialmente quando reconhece a voz de um pai, o usuário adulto / pai pode perguntar ao assistente automatizado sobre o progresso de uma ou mais crianças ao interagir com o assistente automatizado. Em várias implementações, o assistente automatizado pode fornecer vários dados em resposta a tais indagações, como palavras ou sílabas que a criança tende a pronunciar incorretamente ou com dificuldade, se uma tendência para gaguejar é detectada em uma criança, quais perguntas a criança fez, como a criança progrediu em jogos interativos e assim por diante.

Esta patente do Assistente Automatizado pode ser encontrada em:

Assistentes automatizados que acomodam várias faixas etárias e / ou níveis de vocabulário
Inventores: Pedro Gonnet Anders, Victor Carbune, Daniel Keysers, Thomas Deselaers e Sandro Feuz
Cessionário: GOOGLE LLC
Patente dos EUA: 10.573.298
Concedido: 25 de fevereiro de 2020
Arquivado: 16 de abril de 2018

Resumo

As técnicas são descritas neste documento para permitir que um assistente automatizado ajuste seu comportamento dependendo de uma faixa etária detectada e / ou "nível de vocabulário" de um usuário que está se envolvendo com o assistente automatizado. Em várias implementações, os dados indicativos da expressão de um usuário podem ser usados ​​para estimar um ou mais da faixa etária do usuário e / ou nível de vocabulário. A faixa etária / nível de vocabulário estimado pode ser usado para influenciar vários aspectos de um pipeline de processamento de dados empregado por um assistente automatizado. Em várias implementações, os aspectos do pipeline de processamento de dados que podem ser influenciados pela faixa etária / nível de vocabulário do usuário podem incluir um ou mais dentre invocação de assistente automatizada, processamento de voz para texto ("STT"), correspondência de intenção, resolução de intenção ( ou cumprimento), geração de linguagem natural e / ou processamento de texto para fala (“TTS”). Em algumas implementações, um ou mais limites de tolerância associados a um ou mais desses aspectos, como tolerâncias gramaticais, tolerâncias vocabulares, etc., podem ser ajustados.

A parte de descrição detalhada da patente fornece muitos mais detalhes e exemplos sobre como os modificados relacionados à idade ou ao vocabulário são selecionados e como ele pode ser treinado com a voz do usuário para entender melhor as invocações de pedidos de informação e como responder a tais pedidos com proficiência adequada do idioma.

A patente discute texto para fala envolvendo síntese de voz com um assistente automatizado.

Também há informações sobre o entendimento da linguagem natural e é recomendado que a parte da descrição detalhada da patente seja lida para entender melhor como ela está tentando se comunicar com um ser humano para se comunicar melhor com ele. Ter visto como um assistente automatizado pode ter flexibilidade incorporada para torná-lo utilizável por crianças mostra os esforços que o Google está empreendendo para tentar tornar esse sistema útil para as famílias.

Adicionado em 5 de agosto de 2020: Outra patente do Google sobre pesquisa para crianças sobre a qual tenho um blog, que vale a pena conferir para descobrir mais sobre classificações baseadas em conteúdo e filtragem de resultados de pesquisa, Pontuações de Conteúdo Orientado para Jovens no Google?