Los primeros días de la búsqueda por voz en Google

Publicado: 2018-07-26

búsqueda por voz en Google

La primera vez que recuerdo la búsqueda por voz de Google

Recuerdo haber asistido a una conferencia en la ciudad de Nueva York en 2007. Había tomado un taxi desde la estación Penn hasta mi hotel, y el frente del hotel estaba lleno de SEO que llegaban para asistir a la conferencia. Me encontré con Loren Baker (el propietario del Search Engine Journal), con quien solía trabajar, y estaba haciendo una llamada telefónica a algo llamado Goog 411, que era un directorio telefónico automatizado que Google decidió ejecutar durante tres años. En ese momento, no tenía idea de la frecuencia con la que terminaría usando mi teléfono para encontrar información sobre negocios, o que la búsqueda por voz se volvería tan popular como lo es ahora con los teléfonos y dispositivos de búsqueda de altavoces.

Una patente de Google otorgada esta semana trata sobre búsquedas por voz de listados de empresas y se refiere a un "sistema automatizado de asistencia de directorio 411" que podría interactuar con una persona de una manera que "imita cómo un operador humano interactuaría con una persona que llama".

Google está haciendo llamadas telefónicas automatizadas por sí solo ahora

La patente me recordó al sistema Duplex que se demostró en la conferencia de Google I / O a principios de este año. Mientras que esa demostración mostró llamadas que el Asistente de Google podría realizar en nombre de una persona. Esta patente habla de las llamadas que podría realizar a un sistema automatizado que podría responder y brindarle información. La patente nos dice que involucra:

Un sistema automatizado convencional incluye un motor de reconocimiento de voz que reconoce la entrada de voz de la persona que llama. El sistema automatizado incluye un motor de búsqueda que busca en una base de datos el número de teléfono de la empresa específica solicitada por la persona que llama. Si el motor de reconocimiento de voz no puede reconocer la entrada de voz de la persona que llama, el motor de reconocimiento puede pedirle a la persona que llama que repita la entrada, que le haga preguntas para eliminar ambigüedades o que transfiera la llamada a un operador humano.

Entonces, ¿cómo funciona una búsqueda por voz cuando alguien busca empresas mediante algo como una consulta por voz? La patente proporciona algunos detalles que nos informan sobre las interacciones que podríamos tener con un sistema informático que podría estar tomando nuestras consultas y buscando información para devolvernos.

Uno de los primeros pasos es solicitar “información sobre el tipo de negocio o categoría” además de la información de ubicación y posiblemente un identificador de un negocio específico. Esa consulta puede responderse con un motor de búsqueda que busca en una base de datos para encontrar información (por ejemplo, número de teléfono) sobre una empresa específica.

La información del tipo de negocio puede ser proporcionada por la entrada del usuario, que podría ser información proporcionada por los usuarios en llamadas pasadas o actividades de búsqueda en línea de los usuarios, como búsquedas de palabras clave y clics. La patente señala este ejemplo:

... el sistema puede establecer un nuevo tipo de negocio si varios usuarios escribieron una determinada palabra clave o frase, y luego hicieron clic en negocios específicos, lo que indica que los usuarios asociaron los negocios específicos con la palabra clave o frase.

Lo que parece que no estamos viendo de esta patente es lo que Google aprendió de su servicio Goog 411 que solían ofrecer búsquedas basadas en voz en el teléfono. Nos dijeron en el blog oficial de Google que iban a poner fin a ese servicio en la publicación Adiós a un viejo amigo: 1-800-GOOG-411 en 2010. Como nos dice esa publicación:

GOOG-411 fue el primer servicio de reconocimiento de voz de Google y ayudó a sentar las bases para servicios más ambiciosos ahora disponibles en teléfonos inteligentes, como:
Búsqueda por voz: busque en Google hablando en lugar de escribir.
Entrada de voz: complete cualquier campo de texto en Android hablando en lugar de escribir.
Acciones de voz: controle su teléfono Android con comandos de voz. Por ejemplo, puede llamar a cualquier empresa de forma rápida y sencilla con solo decir su nombre.

Esta patente concedida recientemente sobre la búsqueda por voz de un directorio automatizado no parece describir algo tan nuevo. Al leer sobre Goog 411, parece que proporcionó información sobre empresas de forma gratuita a las personas que llaman para permitir que Google recopile datos de voz. Como dijo Marissa Mayer en una entrevista con Infoworld:

Los expertos en reconocimiento de voz que tenemos dicen: Si quieres que construyamos un modelo de voz realmente robusto, necesitamos muchos fonemas, que es una sílaba hablada por una voz en particular con una entonación particular. Así que necesitamos mucha gente hablando, diciendo cosas para que finalmente podamos entrenar con eso. … Entonces, 1-800-GOOG-411 se trata de eso: obtener un montón de muestras de voz diferentes para que cuando llame o intentemos sacar la voz del video, podamos hacerlo con alta precisión.

Esta patente se presenta como algo que podría presentarse para poder lanzar algo como Goog 411, por lo que la fecha de presentación de la patente en 2016 fue sorprendente. La patente está en:

Búsqueda de listados comerciales o personales
Inventores: Brian Strope, William J. Byrne y Francoise Beaufays
Cesionario: GOOGLE LLC
Patente de EE. UU .: 10.026.402
Concedido: 17 de julio de 2018
Archivado: 3 de octubre de 2016

Abstracto

Un método de búsqueda en una lista de empresas con comandos de voz incluye recibir, a través de Internet, desde un terminal de usuario, una consulta hablada por un usuario, que incluye un discurso que representa una categoría de mercancía, un discurso que representa un artículo de mercancía y un expresión del habla que representa una ubicación geográfica. El método incluye reconocer la ubicación geográfica con un motor de reconocimiento de voz basado en el enunciado de voz que representa la ubicación geográfica, reconocer la categoría de mercancía con el motor de reconocimiento de voz basado en el enunciado de voz que representa la categoría de mercancía, reconocer el artículo de mercadería con un discurso motor de reconocimiento basado en la pronunciación del habla que representa el artículo de mercadería, buscar en una lista de negocios para negocios dentro o cerca de la ubicación geográfica reconocida para seleccionar negocios que respondan a la consulta hablada por el usuario, y enviar al terminal del usuario información relacionada con al menos algunos de los las empresas receptivas.

Conclusiones de la búsqueda por voz

Miré esta patente en la base de datos PAIR (Recuperación de información de solicitud de patente) en el sitio web de la USPTO para obtener más información al respecto. La base de datos PAIR contiene expedientes de acciones en el enjuiciamiento de patentes, incluidas cosas como rechazos. Hubo un rechazo de esta patente y una enmienda de las reivindicaciones antes de su concesión. Había una versión anterior de esta patente que se presentó en 2015 con el nombre Business Listing Search, que se había concedido. Google retiró esa versión de esa patente para poder otorgar esta versión en su lugar. No parecía haber muchas diferencias entre los dos. Tenía algunas expectativas de que Google podría estar usando los datos de voz que habían recopilado al ejecutar Goog 411 (y podrían haberlo hecho) y me sorprendió no ver nada sobre lo mencionado en esta patente.

Hay otras patentes que involucran la búsqueda por voz, y vale la pena revisarlas, pero esta patente sobre un enfoque de listas comerciales automatizadas parece ser el tipo de cosas que alguien presentaría para tratar de evitar que otros ejecuten un servicio Goog 411. Si el servicio Goog 411 fue una manera tan excelente de recopilar datos basados en voz que evitar que otros recopilen datos como ese, puede que no sea una mala idea.

Un artículo publicado por Google que comparte algunos autores con esta patente nos habla sobre el papel de Goog 411 para llevar a cabo la búsqueda por voz en Google y vale la pena echarle un vistazo. está en: Búsqueda de Google por voz: un estudio de caso. Hay más de Google sobre la búsqueda por voz, y rastreé algunas patentes más que nos dicen más sobre lo que han estado mirando y trabajando.

Otras patentes de búsqueda por voz

En lugar de profundizar demasiado en esas otras patentes, solo voy a enumerar algunas de ellas aquí para que cualquier persona interesada en profundizar en la búsqueda por voz pueda hacerlo. Más patentes se centran en la búsqueda por voz, pero no vi ningún detalle sobre la búsqueda de empresas.

Actualización automática del modelo de idioma
Inventores: Michael H. Cohen, Shumeet Baluja, Pedro J. Moreno Mengibar
Cesionario: Google LLC (N / A)
Patente de EE. UU .: 9,953,636
Concedido: 24 de abril de 2018
Archivado: 9 de octubre de 2015

Abstracto

Un método para generar un modelo de reconocimiento de voz incluye acceder a un modelo de reconocimiento de voz de referencia, obtener información relacionada con el uso reciente del lenguaje a partir de consultas de búsqueda y modificar el modelo de reconocimiento de voz para revisar las probabilidades de una parte de la ocurrencia de un sonido en función de la información. La parte de un sonido puede incluir una palabra. Además, un método para generar un modelo de reconocimiento de voz incluye recibir en un motor de búsqueda desde un dispositivo remoto una grabación de audio y una transcripción que representa sustancialmente al menos una parte de la grabación de audio, sincronizar la transcripción con la grabación de audio, extraer una o más letras de la transcripción y extraer la pronunciación asociada de una o más letras de la grabación de audio, y generar una entrada de diccionario en un diccionario de pronunciación.

Reconocimiento de voz con redes neuronales recurrentes basadas en la atención
Inventores: William Chan, Navdeep Jaitly, Quoc V. Le, Oriol Vinyals y Noam M. Shazeer
Cesionario: Google Inc.
Patente de Estados Unidos:
Concedido: 24 de octubre de 2017
Archivado: 26 de febrero de 2016

Abstracto

Métodos, sistemas y aparatos, incluidos programas informáticos codificados en medios de almacenamiento informáticos para el reconocimiento de voz. Un método incluye obtener una secuencia acústica de entrada, la secuencia acústica de entrada que representa un enunciado y la secuencia acústica de entrada que comprende una representación de característica acústica respectiva en cada uno de los primeros pasos de tiempo; procesar la secuencia acústica de entrada usando una primera red neuronal para convertir la secuencia acústica de entrada en una representación alternativa para la secuencia acústica de entrada; procesar la representación alternativa para la secuencia acústica de entrada utilizando una red neuronal recurrente (RNN) basada en la atención para generar, para cada posición en un orden de secuencia de salida, un conjunto de puntuaciones de subcadena que incluye una puntuación de subcadena respectiva para cada subcadena en un conjunto de subcadenas; y generar una secuencia de subcadenas que representan una transcripción del enunciado.

Aprendizaje y puntuación de la pronunciación de palabras basado en datos con crowdsourcing basado en las puntuaciones de pronunciación de los fonemas de la palabra
Inventores: Fuchun Peng, Francoise Beaufays, Brian Strope, Xin Lei, Pedro J. Moreno Mengibar y Trevor D. Strohman
Cesionario: Google Inc.
Patente de Estados Unidos: 9,741,339
Concedido: 22 de agosto de 2017
Archivado: 28 de junio de 2013

Abstracto

Métodos, sistemas y aparatos, incluidos programas informáticos codificados en un medio de almacenamiento informático, para determinar la pronunciación de términos particulares. Los métodos, sistemas y aparatos incluyen acciones para obtener muestras de audio de voz correspondientes a un término particular y obtener pronunciaciones candidatas para el término particular. Otras acciones incluyen generar, para cada pronunciación candidata para el término particular y muestra de audio del habla correspondiente al término particular, una puntuación que refleje un nivel de similitud entre la pronunciación candidata y la muestra de audio, donde dicha puntuación para el término particular es obtenido mediante el uso de un mínimo de puntuaciones individuales de fonemas que componen el término. Las acciones adicionales incluyen agregar las puntuaciones para cada pronunciación candidata y agregar una o más pronunciaciones candidatas para el término en particular a un léxico de pronunciación basado en las puntuaciones agregadas para las pronunciaciones candidatas.