Primeiros dias da pesquisa por voz no Google

Publicados: 2018-07-26

pesquisa por voz no Google

A primeira vez que me lembro da Pesquisa por voz do Google

Lembro-me de ter ido a uma conferência na cidade de Nova York em 2007. Eu peguei um táxi da Penn Station para o meu hotel, e a frente do hotel estava cheia de SEOs chegando para participar da Conferência. Encontrei Loren Baker (o proprietário do Search Engine Journal), com quem trabalhei, e ele estava ligando para algo chamado Goog 411, uma lista telefônica automatizada que o Google decidiu administrar por três anos. Naquela época, eu não tinha ideia da frequência com que acabaria usando meu telefone para encontrar informações sobre empresas, ou que a pesquisa por voz se tornaria tão popular quanto é agora com telefones e dispositivos de pesquisa com alto-falante.

Uma patente do Google concedida esta semana é sobre pesquisas por voz para listagens de empresas e se refere a um "sistema automatizado de assistência à lista 411" que pode interagir com uma pessoa de uma forma que "imita como um operador humano interagiria com um chamador".

O Google está fazendo chamadas telefônicas automatizadas agora

A patente me lembrou do sistema Duplex que foi demonstrado na conferência Google I / O no início deste ano. Enquanto aquela demonstração mostrava chamadas que poderiam ser feitas em nome de uma pessoa pelo Google Assistente. Esta patente fala sobre chamadas que você pode fazer para um sistema automatizado que pode responder e fornecer informações. A patente nos diz que envolve:

Um sistema automatizado convencional inclui um mecanismo de reconhecimento de fala que reconhece a entrada de fala do chamador. O sistema automatizado inclui um mecanismo de busca que procura em um banco de dados o número de telefone da empresa específica solicitada pelo chamador. Se o mecanismo de reconhecimento de voz não puder reconhecer a entrada de voz do chamador, o mecanismo de reconhecimento pode pedir ao chamador para repetir a entrada, fazer perguntas de eliminação de ambiguidade ao chamador ou transferir a chamada para um operador humano.

Então, como uma pesquisa por voz funciona quando alguém está procurando empresas por meio de algo como uma consulta por voz? A patente fornece alguns detalhes que nos falam sobre as interações que podemos ter com um sistema de computador que pode estar recebendo nossas consultas e buscando informações para nos devolver.

Uma das primeiras etapas é solicitar “informações sobre o tipo de empresa ou categoria”, além das informações de localização e, possivelmente, um identificador de uma empresa específica. Essa consulta pode ser respondida com um mecanismo de busca em um banco de dados para encontrar informações (por exemplo, número de telefone) sobre uma empresa específica.

As informações de tipo de negócio podem ser fornecidas pela entrada do usuário, que podem ser informações fornecidas por usuários em chamadas anteriores ou atividades de pesquisa online de usuários, como pesquisas de palavras-chave e cliques. A patente aponta este exemplo:

… O sistema pode estabelecer um novo tipo de negócio se vários usuários digitarem uma determinada palavra-chave ou frase e, posteriormente, clicarem em negócios específicos, indicando que os usuários associaram os negócios específicos à palavra-chave ou frase.

O que parece que não estamos vendo com essa patente é o que o Google aprendeu com o serviço Goog 411, que eles usavam para oferecer pesquisas por voz no telefone. Eles nos disseram no Blog oficial do Google que estavam encerrando aquele serviço no post, Adeus a um velho amigo: 1-800-GOOG-411 em 2010. Como esse post nos diz:

GOOG-411 foi o primeiro serviço de reconhecimento de fala do Google e ajudou a fornecer uma base para serviços mais ambiciosos agora disponíveis em smartphones, como:

  • Pesquisa por voz - pesquise no Google falando em vez de digitar.
  • Entrada de voz - preencha qualquer campo de texto no Android falando em vez de digitar.
  • Ações de voz - controle seu telefone Android com comandos de voz. Por exemplo, você pode ligar para qualquer empresa de forma rápida e fácil, apenas dizendo o nome dela.

Essa patente concedida recentemente para a pesquisa por voz de um diretório automatizado não parece descrever algo tão novo assim. Lendo sobre o Goog 411, parece que ele fornecia informações sobre empresas gratuitamente para os chamadores, a fim de permitir que o Google coletasse dados de voz. Como Marissa Mayer afirmou em uma entrevista à Infoworld:

Os especialistas em reconhecimento de fala que temos dizem: Se você deseja que construamos um modelo de fala realmente robusto, precisamos de muitos fonemas, que é uma sílaba falada por uma voz específica com uma entonação específica. Então, precisamos de muitas pessoas falando, dizendo coisas para que possamos finalmente treinar com isso. … Então 1-800-GOOG-411 é sobre isso: Obter um monte de amostras de fala diferentes para que quando você ligar ou estiver tentando obter a voz do vídeo, possamos fazer isso com alta precisão.

Esta patente surge como algo que pode ser depositado para que algo como Goog 411 possa ser lançado, e é por isso que a data de depósito da patente em 2016 foi surpreendente. A patente está em:

Pesquisa de empresa ou lista pessoal
Inventores: Brian Strope, William J. Byrne e Francoise Beaufays
Cessionário: GOOGLE LLC
Patente dos EUA: 10.026.402
Concedido: 17 de julho de 2018
Arquivado: 3 de outubro de 2016

Resumo

Um método de pesquisa de uma listagem de empresas com comandos de voz inclui receber, pela Internet, de um terminal de usuário, uma consulta falada por um usuário, que inclui uma expressão vocal que representa uma categoria de mercadoria, uma expressão vocal que representa um item de mercadoria e um expressão de fala que representa uma localização geográfica. O método inclui o reconhecimento da localização geográfica com um mecanismo de reconhecimento de voz baseado na fala que representa a localização geográfica, reconhecendo a categoria de mercadoria com o motor de reconhecimento de voz com base na fala que representa a categoria de mercadoria, reconhecendo o item de mercadoria com uma fala mecanismo de reconhecimento com base na expressão vocal que representa o item de mercadoria, pesquisando uma lista de empresas dentro ou perto da localização geográfica reconhecida para selecionar empresas que respondem à consulta falada pelo usuário e enviar para o terminal do usuário informações relacionadas a pelo menos alguns dos as empresas responsivas.

Pesquisa por voz para levar

Eu olhei essa patente no banco de dados PAIR (Patent Application Information Retrieval) no site do USPTO para saber mais sobre ela. O banco de dados PAIR contém registros de ações no processo de patentes, incluindo itens como rejeições. Houve uma rejeição desta patente e uma alteração das reivindicações antes de ser concedida. Havia uma versão anterior desta patente que foi registrada em 2015 com o nome de Pesquisa de listagem de empresas, que foi concedida. O Google retirou essa versão da patente para que esta versão pudesse ser concedida em seu lugar. Não parecia haver muitas diferenças entre os dois. Eu tinha algumas expectativas de que o Google poderia estar usando os dados de voz que eles coletaram durante a execução do Goog 411 (e eles podem ter feito) e fiquei surpreso ao não ver nada sobre isso mencionado nesta patente.

Existem outras patentes envolvendo pesquisa por voz, e vale a pena dar uma olhada nessas patentes, mas essa patente sobre uma abordagem de listagens automatizadas de empresas parece o tipo de coisa que alguém registraria para tentar impedir que outros executem um serviço Goog 411. Se o serviço Goog 411 era uma ótima maneira de coletar dados baseados em voz, em vez de impedir que outras pessoas coletassem dados como esse, pode não ser uma má ideia.

Um artigo publicado pelo Google que compartilha alguns autores com esta patente nos fala sobre o papel do Goog 411 na liderança da pesquisa por voz no Google e vale a pena dar uma olhada. está em: Google Search by Voice: A case study. Há mais informações do Google sobre a pesquisa por voz, e eu rastreei mais algumas patentes que nos contam mais sobre o que eles estão analisando e trabalhando.

Outras patentes de pesquisa por voz

Em vez de me aprofundar muito nessas outras patentes, vou apenas listar algumas delas aqui para que qualquer pessoa interessada em se aprofundar mais na pesquisa por voz possa fazê-lo. Mais patentes se concentram na pesquisa por voz, mas não vi nenhum detalhe específico sobre a pesquisa de empresas.

Atualização automática do modelo de idioma
Inventores: Michael H. Cohen, Shumeet Baluja, Pedro J. Moreno Mengibar
Cessionário: Google LLC (N / A)
Patente dos EUA: 9.953.636
Concedido: 24 de abril de 2018
Arquivado: 9 de outubro de 2015

Resumo

Um método para gerar um modelo de reconhecimento de fala inclui acessar um modelo de reconhecimento de fala de linha de base, obter informações relacionadas ao uso recente da linguagem a partir de consultas de pesquisa e modificar o modelo de reconhecimento de fala para revisar as probabilidades de uma parte de uma ocorrência de som com base nas informações. A parte de um som pode incluir uma palavra. Além disso, um método para gerar um modelo de reconhecimento de voz inclui receber em um mecanismo de busca de um dispositivo remoto uma gravação de áudio e uma transcrição que representa substancialmente pelo menos uma parte da gravação de áudio, sincronizando a transcrição com a gravação de áudio, extraindo um ou mais letras da transcrição e extração da pronúncia associada de uma ou mais letras da gravação de áudio e geração de uma entrada de dicionário em um dicionário de pronúncia.

Reconhecimento de fala com redes neurais recorrentes baseadas na atenção
Inventores: William Chan, Navdeep Jaitly, Quoc V. Le, Oriol Vinyals e Noam M. Shazeer
Cessionário: Google Inc.
Patente dos EUA:
Concedido: 24 de outubro de 2017
Arquivado: 26 de fevereiro de 2016

Resumo

Métodos, sistemas e aparelhos, incluindo programas de computador codificados em mídia de armazenamento de computador para reconhecimento de voz. Um método inclui a obtenção de uma sequência acústica de entrada, a sequência acústica de entrada representando um enunciado e a sequência acústica de entrada compreendendo uma respectiva representação de característica acústica em cada uma das primeiras etapas de tempo; processar a sequência acústica de entrada usando uma primeira rede neural para converter a sequência acústica de entrada em uma representação alternativa para a sequência acústica de entrada; processar a representação alternativa para a sequência acústica de entrada usando uma Rede Neural Recorrente (RNN) baseada em atenção para gerar, para cada posição em uma ordem de sequência de saída, um conjunto de pontuações de substring que inclui uma pontuação de substring respectiva para cada substring em um conjunto de substrings; e gerar uma sequência de substrings que representam uma transcrição do enunciado.

Aprendizagem e pontuação de pronúncia de palavras orientada por dados com crowdsourcing com base nas pontuações de pronúncia dos fonemas da palavra
Inventores: Fuchun Peng, Francoise Beaufays, Brian Strope, Xin Lei, Pedro J. Moreno Mengibar e Trevor D. Strohman
Cessionário: Google Inc.
Patente dos EUA: 9.741.339
Concedido: 22 de agosto de 2017
Arquivado: 28 de junho de 2013

Resumo

Métodos, sistemas e aparelhos, incluindo programas de computador codificados em um meio de armazenamento de computador, para determinar pronúncias para termos particulares. Os métodos, sistemas e aparelhos incluem ações de obtenção de amostras de áudio da fala correspondente a um termo específico e obtenção de pronúncias candidatas para o termo específico. Outras ações incluem gerar, para cada pronúncia candidata para o termo específico e amostra de áudio da fala correspondente ao termo específico, uma pontuação refletindo um nível de similaridade entre a pronúncia candidata e a amostra de áudio, em que a referida pontuação para o termo específico é obtido usando um mínimo de pontuações individuais de fonemas que compõem o termo. Ações adicionais incluem agregar as pontuações para cada pronúncia candidata e adicionar uma ou mais pronúncias candidatas para o termo específico a um léxico de pronúncia com base nas pontuações agregadas para as pronúncias candidatas.