Google describe un modelo de aprendizaje automático para un índice de búsqueda

Publicado: 2021-04-01

Ranking de recuperación de información versus ranking de aprendizaje automático

La búsqueda ha clasificado históricamente los resultados de búsqueda en respuesta a los términos de consulta que los buscadores ingresaron en un cuadro de búsqueda en función de la devolución de resultados de búsqueda orgánicos clasificados en una combinación de puntaje de recuperación de información (buscando una relevancia entre esos términos y su uso en recursos en la web) combinado con una puntuación de materialidad, basada en una medida de autoridad como PageRank. Pero Google puede comenzar a usar un modelo de aprendizaje automático para clasificar más contenido.

Los ingenieros de búsqueda nos han estado diciendo que los motores de búsqueda ahora pueden estar usando modelos de aprendizaje automático para clasificar las páginas web. No estamos muy seguros de cómo se ha utilizado el aprendizaje automático, pero es bueno ver descripciones de cómo pueden estar esas páginas de clasificación en los resultados de búsqueda.

Vale la pena ver una patente otorgada a principios de diciembre de 2020, y guardé una copia de la patente para escribir sobre ella en ese entonces.

Uno de los inventores detrás de esta patente ha trabajado para implementar Sibyl (Tushar Chandra), y se recomienda encarecidamente un video sobre ese proyecto:

Los sistemas de recomendación a veces tienen etapas de clasificación separadas de recuperación de información y aprendizaje automático.

¿La diferencia entre esos tipos de resultados?

Esa etapa de recuperación de información selecciona documentos (videos, anuncios, música, documentos de texto, etc.) de un corpus basado en varias señales. Al mismo tiempo, el sistema de aprendizaje automático clasifica la salida del sistema de recuperación de información.

Por ejemplo, cuando un buscador ingresa una consulta como "gato", un sistema de recuperación de información contextual puede seleccionar un conjunto de anuncios candidatos que contienen la palabra "gato" de todos los anuncios disponibles.

Luego, esos anuncios candidatos pueden clasificarse en función de un modelo de aprendizaje automático que ha sido entrenado para predecir la probabilidad de que un buscador haga clic en un anuncio en función de varias características, tales como:

El tipo de usuario
La ubicación del usuario
La hora del día a la que se realizó la consulta.
Etc.

La patente nos habla de la diferencia entre los dos:

Una herramienta de recuperación de información es computacionalmente eficiente, pero solo puede producir una estimación aproximada de qué elementos se recomiendan mejor a un usuario.
Un modelo de aprendizaje automático puede producir recomendaciones más precisas, pero a menudo es más computacionalmente intensivo que una herramienta de recuperación de información.

Debido a que la herramienta de recuperación de información es menos precisa, puede excluir a ciertos candidatos de la consideración utilizando el modelo de aprendizaje automático que de otro modo estaría altamente calificado.

De acuerdo con la patente de Google, las reglas de un modelo de aprendizaje automático se reciben, y cada una de las reglas de aprendizaje automático contiene un resultado, características y una probabilidad de resultado predicha por el modelo de aprendizaje automático para una o más características y el resultado.

Al observar los perfiles de LinkedIn de los inventores de esta patente, parece que este enfoque de aprendizaje automático probablemente se utilice para optimizar videos en YouTube, y los ejemplos de la patente se centran en videos.

Puede existir una entrada para un índice basado en tokens para cada una de las reglas y puede contener uno o más tokens según las características de la regla, el resultado de la regla y la probabilidad de resultado de la regla.

Se puede recibir una consulta y se puede identificar un subconjunto de tokens que corresponden a la consulta.

El índice basado en tokens se puede utilizar para obtener varias probabilidades de resultado basadas en el subconjunto de tokens.

Un resultado puede seleccionarse basándose en la pluralidad de probabilidades de resultado y proporcionarse a un usuario.

Se puede clasificar un subconjunto de resultados seleccionados.

Por ejemplo, cien videos (resultados) pueden clasificarse por probabilidad y los veinte primeros se muestran, de mayor a menor probabilidad, al usuario.

Según la presente divulgación, los sistemas y técnicas pueden generar o cambiar uno o más índices basándose en las reglas y resultados de un modelo que es el producto de un sistema de aprendizaje automático.

Los índices generados o modificados pueden usarse para proporcionar resultados basados en una técnica de búsqueda.

Pueden establecerse o aclararse más características, ventajas e implementaciones de la materia objeto descrita a partir de la consideración de la siguiente descripción detallada, dibujos y reivindicaciones.

Esta patente se puede encontrar en:

Índice de búsqueda
Inventores: Jeremiah Harmsen, Tushar Deepak Chandra, Marcus Fontoura
Cesionario: Google LLC
Patente de EE. UU .: 10,853,360
Concedido: 1 de diciembre de 2020
Archivado: 27 de marzo de 2019

Abstracto

Se describen sistemas y técnicas para generar entradas para un índice de búsqueda basado en reglas generadas por uno o más modelos de aprendizaje automático. Las entradas de índice pueden incluir uno o más tokens correlacionados con un resultado y una probabilidad de resultado. Se puede identificar un subconjunto de tokens en función de las características de un evento. Se pueden buscar en el índice resultados y sus respectivas probabilidades que correspondan a tokens similares o coincidan con el subconjunto de tokens según el evento.

¿Cómo es este modelo de aprendizaje automático?

Esta patente trata sobre un índice de búsqueda creado usando reglas de un modelo de aprendizaje automático.

Esto permite que la inteligencia y la lógica superiores de un modelo de aprendizaje automático se incorporen en un índice de fácil búsqueda.

Y las herramientas estándar de recuperación de información pueden recuperar datos de manera eficiente utilizando el índice.

Compare esto con un sistema con recuperación de información separada y etapas de clasificación de aprendizaje automático eliminando la pérdida de candidatos durante la etapa de recuperación de información que el modelo de aprendizaje automático obtendría una puntuación alta.

Las técnicas de la patente pueden utilizar modelos de aprendizaje automático generados mediante datos de aprendizaje supervisado, como ejemplos etiquetados.

Esos ejemplos etiquetados pueden ingresarse en un sistema de aprendizaje automático, y la salida del sistema de aprendizaje automático puede ser un modelo de aprendizaje automático con pesos generados en respuesta a los datos etiquetados.

Los ejemplos etiquetados pueden contener tanto un resultado como propiedades asociadas con una instancia específica.

Los pesos y los resultados pueden ser valores numéricos sin unidades, porcentajes, recuentos de ocurrencias u otra cuantificación.

Un sistema de aprendizaje automático puede recibir datos etiquetados (por ejemplo, ejemplos etiquetados) para desarrollar un modelo de aprendizaje automático que contiene pesos generados en respuesta a los datos etiquetados supervisados.

Un modelo de aprendizaje automático puede crear una o más reglas.

Ejemplo de reglas de aprendizaje automático para SERP

Este ejemplo parece haber sido creado para su uso con videos que se muestran en respuesta a una consulta de búsqueda.

Una regla puede incluir un resultado, un conjunto de características y una probabilidad. Por ejemplo, la regla:

(palabra clave: coche, vídeo: fabricante de coches_1) .fwdarw.0.03

Esto nos dice que cuando un buscador envía una palabra clave de búsqueda "automóvil" en un motor de búsqueda (una función) y al usuario se le devuelve un video sobre carmaker_1 (el resultado), con un 3% de probabilidad de que el usuario seleccione el video para ver. eso (la probabilidad).

La patente nos dice que las entradas en un índice de búsqueda pueden incluir documentos y tokens de búsqueda.

También sabemos que un token en un índice basado en tokens con aprendizaje automático puede denominarse token indexado.

Y que un token indexado puede incluir una palabra clave o no incluir una palabra clave.

Por lo tanto, un índice puede incluir un token que contenga la palabra clave "automóvil", así como otros tokens que no incluyen palabras clave pero que se relacionan con otras características como la ubicación, el idioma y la configuración del navegador.

En ese caso, una característica puede incluir cualquier información conocida sobre un usuario, como un texto de consulta enviado por el usuario, una configuración del navegador establecida por el usuario, etc.

Además, una característica puede ser información de estado general como:

Hora del día
Ubicación geográfica
Etc.

La patente luego nos muestra un ejemplo, una página web puede producir una entrada de la siguiente manera:

web_page_1: [texto: furgón, 4.0], [imagen: tren, 2.0]

Esta entrada indica que una página de un sitio web (“web_page_1”, un documento) incluye la cadena de texto “boxcar” cuatro veces y dos imágenes de trenes.

Por lo tanto, un modelo estándar de aprendizaje automático basado en reglas se puede mostrar como un conjunto de documentos y tokens con pesos.

Por ejemplo, las siguientes reglas indican la probabilidad de que un usuario que ingrese la palabra clave de búsqueda "automóvil" en un motor de búsqueda seleccione un video sobre un fabricante de automóviles en particular:

(palabra clave: coche, vídeo: fabricante de coches_1) .fwdarw.0.03

(palabra clave: coche, vídeo: carmaker_2) .fwdarw.0.05

Estas reglas pueden convertirse en entradas que incluyan un conjunto de tokens de búsqueda correspondientes a cada video, como por ejemplo:

carmaker_1: [palabra clave: automóvil, 0.03]

carmaker_2: [palabra clave: automóvil, 0.05]

Una entrada puede incluir un resultado (como "fabricante de coches_1"), fichas (como palabra clave: coche) y un peso (como 3%).

Los tokens pueden basarse en la aparición de características en una regla de aprendizaje automático.

Un peso puede corresponder a la probabilidad de que el resultado se produzca en función de la aparición de determinadas características, representadas aquí como tokens.

Dado que los datos descritos en la patente tienen la misma estructura que un problema estándar de recuperación de información de búsqueda web, se pueden utilizar búsquedas web estándar y otras técnicas de recuperación de información, como índices invertidos y listas de publicación.

Una implementación posterior a la patente puede terminar con la necesidad de un paso de recuperación de información por separado y calificar todos los resultados utilizando el modelo de aprendizaje automático.

Por eso, los resultados de la búsqueda pueden ser más apropiados para un buscador que una búsqueda indexada típica, como los que se basan en los atributos del usuario, el contexto de la búsqueda, etc.

Por ejemplo, las funciones se pueden asociar a un usuario determinado.

Para que puedan utilizar la presencia (1) o la ausencia (0) de funciones (consulta, ubicación del usuario (Europa, América) y si el buscador tiene una conexión de ancho de banda alto.

Un modelo de aprendizaje automático puede incluir ponderaciones que pueden mostrar las contribuciones relativas de varias características a la probabilidad de un resultado.

Las contribuciones relativas de las funciones a la probabilidad de que un usuario seleccione para ver un video en particular AD.

La presencia o ausencia de funciones para un usuario determinado combinada con el peso de la función para un resultado para determinar la probabilidad de ese resultado para ese usuario.

La presencia de la palabra clave: automóvil y América para el usuario B combinada con los pesos de esas funciones para el video C (0.5 y 0.2, respectivamente) se puede usar para predecir la probabilidad de que el usuario B seleccione el video C para verlo.

Se puede calcular la probabilidad de que cada buscador elija ver cada video diferente.

Los pesos pueden ser valores numéricos sin unidades, porcentajes, recuentos de ocurrencias u otra cuantificación.

Las reglas se pueden generar según el modelo de aprendizaje automático.

Una regla puede correlacionar al menos una característica con la probabilidad de que ocurra un resultado dado.

Se pueden generar muchas reglas en función de las ocurrencias de varias combinaciones de características.

Se puede generar un conjunto de tokens según las características de una regla.

Ejemplos de tales tokens pueden incluir [palabra clave: automóvil], [ubicación: Europa] y [ancho de banda: alto].

Los tokens correspondientes a un conjunto de características en una regla pueden considerarse en combinación con una probabilidad de un resultado dado e indexarse.

Los tokens [palabra clave: coche], [ubicación: Europa] y [ancho de banda: alto] pueden correlacionarse con una probabilidad del 4% de que se seleccione el vídeo C para su visualización:

Video C: [palabra clave: automóvil, ubicación: Europa, ancho de banda: alto, 0.04]

Esta información se puede almacenar como una entrada de índice de búsqueda y otros resultados derivados de otras reglas.

El índice total compilado se puede buscar utilizando herramientas estándar de recuperación de información.

Este índice generado se conoce como índice basado en tokens.

Se basa en tokens que no se limitan a palabras clave.

Se pueden emplear una o más técnicas de clasificación para refinar los resultados de la búsqueda para responder a una consulta.

El índice se puede utilizar para considerar solo los tokens correspondientes a las características de un usuario determinado.

Una búsqueda en el índice puede recuperar todos los videos cuyas probabilidades se han calculado para un usuario cuyo último video visto fue sobre gatos y cuya ubicación es América.

Los videos resultantes se pueden clasificar por probabilidad de mayor a menor probabilidad de ser seleccionados a continuación para su visualización cuando se presenten como opciones de visualización posteriores al usuario.

Se pueden recomendar al usuario descripciones (por ejemplo, miniaturas) de los videos mejor clasificados en la lista.

Un resultado puede ser aquel para el que el modelo de aprendizaje automático predijo un valor de resultado.

El valor puede ser un peso, una verosimilitud o una probabilidad. (Solo a modo de ejemplo, nos referimos a la probabilidad dentro de la patente).

El resultado puede ser cualquier resultado aplicable, como:

Una predicción basada en regresión
Un ranking
Una probabilidad de conversión
Una probabilidad de clic
Una predicción de duración (por ejemplo, cuánto tiempo es probable que un usuario vea / interactúe con el contenido asociado con el resultado), o similar.

Como se discutió en el ejemplo anterior, un usuario que ve un video Y y un usuario que ve un video Z son ejemplos de resultados.

Otros ejemplos de resultados pueden ser:

Seleccionar una promoción
Abrir una cuenta
Comprar un producto o servicio
La duración durante la cual un usuario ve un contenido (p. Ej., Un video, una imagen, un texto, etc.)
Acceso repetido (p. Ej., La probabilidad de que un usuario vuelva a visitar el contenido) o similares

Una probabilidad de resultado se puede representar de cualquier forma útil, que incluye:

Representaciones enteras
Categorización booleana
Normalización (por ejemplo, el valor de probabilidad convertido en probabilidad normalizada, tasa de conversión, porcentaje, etc.)

Una probabilidad de resultado puede ser cualquier predicción aplicable, como un porcentaje, relación o similar y / o puede corresponder a una predicción de la cantidad gastada (por ejemplo, dólares gastados), la cantidad de tiempo de exposición (por ejemplo, minutos de video vistos), o similares.

La probabilidad de resultado puede derivarse de la predicción realizada por el modelo de aprendizaje automático.

Un índice de búsqueda puede contener muchas entradas, cada una asociada con un resultado.

Las entradas pueden corresponder a una probabilidad de resultado que predice la probabilidad de que un buscador seleccione el contenido asociado con el resultado.

Esta probabilidad de resultado puede representar el porcentaje de probabilidad de que un usuario seleccione contenido asociado con el resultado.

¿Qué apariencia tendrán los resultados del modelo de aprendizaje automático?

Curiosamente, los ejemplos de la patente involucran videos.

Este índice basado en fichas de búsqueda puede utilizar fichas asociadas con una consulta que coincida con las fichas en el índice basado en fichas de búsqueda. Utilizando un algoritmo de búsqueda, los resultados pueden seleccionarse en función de una o más probabilidades de resultados.

Un sistema de aprendizaje automático puede generar y actualizar modelos para hacer predicciones y proporcionar clasificaciones.

Una predicción basada en modelos de aprendizaje automático puede contener un resultado, una o más características y un valor de predicción.

Las predicciones realizadas mediante un modelo de aprendizaje automático pueden incluir muchas características para un evento determinado del modelo de aprendizaje automático. Según la presencia de las características, el modelo de aprendizaje automático puede generar una probabilidad o predicción.

Un modelo de aprendizaje automático que predice si un buscador verá el video Y (un ejemplo de un resultado) puede contar con características que el usuario ubicado en los Estados Unidos, ha visto un video musical X en el pasado y ha establecido su idioma predeterminado como Inglés (ejemplos de funciones).

Este modelo de aprendizaje automático puede contener pesos para cada una de las funciones:

0.5 por estar ubicado en los Estados Unidos
0.9 por haber visto el video musical X
0.3 para configurar el idioma predeterminado como inglés)

El modelo de aprendizaje automático puede contener pesos para otras funciones (p. Ej., El uso se encuentra en Canadá). Sin embargo, como esas características no están presentes en esta predicción de ejemplo, es posible que sus pesos no contribuyan a la predicción.

La falta de una característica en particular puede ser importante para predecir un resultado y se puede considerar.

El modelo de aprendizaje automático puede proporcionar una ponderación sobre si el usuario verá el video musical Y en función de la ausencia de una función (por ejemplo, el usuario no está usando un dispositivo móvil).

El valor de predicción puede normalizarse para representar un porcentaje o probabilidad de cualquier manera aplicable.

La instancia podría contener el resultado: "si el usuario verá el video Y", las características: "ubicado en los Estados Unidos", "video visto X" y "idioma predeterminado inglés", y la predicción: "0.9" (normalizado ).

Una característica puede ser cualquier característica aplicable asociada con una instancia. Por ejemplo, puede basarse en un usuario (p. Ej., Datos demográficos del usuario, historial del usuario, asociaciones de usuarios como cuentas de usuario o preferencias), un dispositivo (p. Ej., Un tipo de dispositivo de usuario, características del dispositivo, capacidades del dispositivo, configuración del dispositivo, etc. ), un evento actual o similar.

Las características pueden incluir una ubicación del buscador, una preferencia de idioma del buscador, un historial de visualización, una cuenta del buscador, una suscripción del buscador, un tipo de modelo de dispositivo, una resolución de pantalla del dispositivo, un sistema operativo del dispositivo, una designación de vacaciones, la ocurrencia de un evento deportivo o el me gusta.

Una característica puede ser una entrada de búsqueda (como una palabra clave de texto, una imagen, un archivo de audio, etc.) recibida de un buscador.

Que el resultado, las características y / o la predicción se pueden representar en cualquier forma útil, como representaciones de números enteros, a través de la categorización booleana, normalizada (por ejemplo, el valor de probabilidad convertido en una probabilidad normalizada, tasa de conversión, porcentaje, etc.) de la patente, el modelo de aprendizaje automático puede entrenarse utilizando selecciones previas de un usuario más (resultados), como se describe en este documento.

La predicción realizada por el modelo de aprendizaje automático puede basarse en la selección exitosa o la falta de selección de un resultado, de modo que la probabilidad del resultado predicho puede aumentar en función de los resultados de los candidatos seleccionados y puede disminuir en función de los resultados no seleccionados.

¿Cómo serán las reglas para el modelo de aprendizaje automático?

Una instancia de una regla basada en modelos de aprendizaje automático puede contener un resultado, una o más características y una probabilidad de resultado.

En un ejemplo de una predicción realizada a través de un modelo de aprendizaje automático, se pueden proporcionar al modelo de aprendizaje automático muchas características para un evento determinado. Según la presencia de las características, el modelo de aprendizaje automático puede generar una probabilidad o predicción.

Un ejemplo más detallado:

Un modelo de aprendizaje automático que predice si un usuario verá el video Y (un resultado) puede recibir datos de que el usuario en los Estados Unidos ha visto un video musical X en el pasado y ha establecido su idioma predeterminado como inglés (características).

Este modelo de aprendizaje automático puede prescribir pesos para cada una de las características, por ejemplo, 0.5 por estar ubicado en los Estados Unidos, 0.9 por haber visto el video musical X y 0.3 por establecer el idioma predeterminado.

Por lo tanto, el modelo de aprendizaje automático puede predecir que el usuario verá el video musical Y con un peso de 1,7 en función de las funciones asociadas con la regla.

El valor de probabilidad se puede normalizar para representar un porcentaje o probabilidad de cualquier manera aplicable.

La instancia puede contener el resultado: "si el usuario verá el video Y", las características: "ubicado en los Estados Unidos", "video visto X" y "idioma predeterminado inglés" y la predicción: "0.9" (normalizado ).

El resultado, las características y / o la probabilidad se pueden representar de cualquier manera aplicable, como valores hash, representaciones enteras, categorización booleana, normalización (por ejemplo, el valor de probabilidad convertido en probabilidad normalizada, tasa de conversión, porcentaje, etc.) .

Por lo tanto, un resultado para "Seleccionar video X" puede representarse con un valor hash "e0d123e5f316".

En el siguiente paso, una instancia de una regla basada en un modelo de aprendizaje automático se puede convertir en una entrada en un índice de búsqueda basado en características.

La entrada en el índice basado en características de búsqueda puede contener un resultado asociado con uno o más tokens y una probabilidad de resultado.

Un token puede basarse en una característica contenida en una regla.

Ese modelo puede predecir una probabilidad de 0.9 para el resultado "el usuario verá el video Y" en función de varias características.

El índice basado en tokens puede correlacionar los mismos tokens con otros resultados, cada uno con su propia probabilidad.

Por ejemplo, los mismos tokens pueden correlacionarse con el resultado "el usuario verá el video Z" con una probabilidad de 0,8.

Un índice de búsqueda basado en tokens puede ser un índice invertido o una lista de publicación de modo que sea una estructura de datos de índice que esté configurada para almacenar una asignación desde el contenido (por ejemplo, palabras, números, valores, etc.) a ubicaciones en un archivo de base de datos. , a documentos, o un conjunto de documentos.

Este índice de búsqueda basado en token puede permitir búsquedas rápidas de texto completo y tal vez un archivo de base de datos en sí en lugar de su índice.

Entonces se puede recibir una consulta.

Se puede generar una consulta basándose en las acciones de un usuario humano, una computadora, una base de datos, software, una aplicación, un servidor o similares.

El término consulta puede incluir cualquier entrada que pueda usarse para buscar en el índice y obtener una probabilidad de uno o más resultados basados en uno o más eventos.

Cuando un buscador selecciona un video dado, las características de la selección (por ejemplo, la identidad del video, el tema del video, la ubicación del usuario, etc.) se pueden utilizar como base de una consulta para buscar el índice. resultados y sus respectivas probabilidades de que el usuario seleccione otros videos para mirar a continuación.

Los resultados de la consulta pueden predecir, por ejemplo, que el usuario seleccionará Video B con una probabilidad de 0.2, Video C con una probabilidad de 0.1 y Video D con una probabilidad de 0.4.

Una consulta puede formularse basándose en un subconjunto de tokens que pueden identificarse, por ejemplo, basándose en un evento.

Por ejemplo, un usuario de Canadá puede haber enviado una búsqueda por palabra clave para "automóvil" a las 5:07 p.m. ET con la configuración de idioma del navegador del usuario establecido en "Francés".

El subconjunto de tokens que se pueden identificar puede incluir la palabra clave: automóvil, ubicación: Canadá, hora: 5: 07 p.m. ET e idioma: francés.

Estos tokens se pueden usar para buscar en el índice resultados y probabilidades correlacionados con tokens iguales o similares en el índice.

Estos tokens pueden corresponder, por ejemplo, a las siguientes entradas en el índice, que se pueden recuperar usando técnicas de búsqueda de índice estándar.

Se pueden seleccionar uno o más resultados (arriba, videos) a partir de los resultados, por ejemplo, en base a sus respectivas probabilidades de resultados.

El resultado Video F puede tener la mayor probabilidad de ser seleccionado para verlo a continuación.

En consecuencia, se puede proporcionar un enlace a Video F a un usuario. Además, también se pueden presentar los siguientes videos mejor clasificados (más probables) (Video R y Video A).

¿Cómo serán las reglas para el modelo de aprendizaje automático?

Nos han dicho que una instancia de una regla basada en un modelo de aprendizaje automático puede contener un resultado, una o más características y una probabilidad de resultado.

Por lo tanto, en un ejemplo de una predicción realizada a través de un modelo de aprendizaje automático, se pueden proporcionar al modelo de aprendizaje automático muchas funciones para un evento determinado. Según la presencia de las características, el modelo de aprendizaje automático puede generar una probabilidad o predicción.

Como ejemplo más específico, un modelo de aprendizaje automático que predice si un usuario verá el video Y (un resultado) puede recibir datos que el usuario ubicado en los Estados Unidos, haya visto un video musical X en el pasado y haya configurado su idioma predeterminado como inglés (características).

Por lo tanto, el modelo de aprendizaje automático puede predecir que el usuario verá el video musical Y con un peso de 1,7 en función de las funciones asociadas con la regla.

El valor de probabilidad se puede normalizar para representar un porcentaje o probabilidad de cualquier manera aplicable.

Aquí, la instancia puede contener el resultado: "si el usuario verá el video Y", las características: "ubicado en los Estados Unidos", "video visto X" e "idioma predeterminado inglés" y la predicción: "0.9" ( normalizado).