SEO recurre a gráficos de datos para aprender sobre la Web

Publicado: 2021-02-23

La Web como gráficos de datos es una nueva dirección para el SEO

Muchos de los artículos que la gente escribe sobre SEO involucran páginas web y enlaces entre páginas. Aún así, esta publicación trata sobre entidades y relaciones entre entidades y hechos sobre los que se escribe en páginas web. También analiza las respuestas a las consultas de los gráficos de datos en la web sobre hechos y atributos relacionados con las entidades que se encuentran en las páginas web. Recientemente me encontré con una solicitud de patente en el sitio de la OMPI (Organización Mundial de la Propiedad Intelectual) sobre la que pensé que valía la pena escribir. La patente comienza diciéndonos que se trata de:

Los gráficos de datos grandes almacenan datos y reglas que describen el conocimiento sobre los datos en una forma que proporciona un razonamiento deductivo.

El título de la patente nos dice que, idealmente, se trata de enviar consultas a un motor de búsqueda en lenguaje natural (la forma en que la gente habla y las computadoras intentan entender).

La patente nos muestra un ejemplo relacionado con gráficos de datos, entidades, como personas, lugares, cosas, conceptos, etc., que pueden almacenarse como nodos.Los bordes entre esos nodos pueden indicar la relación entre los nodos (hechos que las personas pueden encontrar En SEO, estamos acostumbrados a escuchar sobre páginas web y nodos y enlaces entre esas páginas como bordes.

Este enfoque de las entidades es una forma diferente de ver los nodos y los bordes. Recientemente, hemos visto personas hablando de menciones de entidades en lugar de enlaces que mencionan páginas. Es una forma en que el SEO avanza para pensar en objetos del mundo real, como entidades, cuando se habla de una gran base de datos como la web. La segunda patente de Google (provisional) de la que tengo conocimiento fue sobre hechos y una gran base de datos. Escribí sobre esto en la Primera invención de búsqueda semántica de Google patentada en 1999.

Escribí sobre una patente más reciente en Google sobre cómo el motor de búsqueda puede leer la web y extraer información de la entidad y utilizar la web como una gran base de datos dispersa. Esa publicación es Extracciones de entidades para gráficos de conocimiento en Google. Hemos visto información en línea sobre programas de capacitación previa como BERT que pueden etiquetar palabras en un documento con partes del discurso. También puede identificar y reconocer entidades extraídas de páginas y sobre las que el motor de búsqueda conoce.

Esta nueva patente nos dice que en tales gráficos de datos, los nodos como "Maryland" y "Estados Unidos" podrían estar vinculados por los bordes de "en el país" y / o "ha declarado".

También se nos dice que la unidad básica de tales gráficos de datos es una tupla que incluye dos entidades y una relación entre las entidades.

Esas tuplas pueden representar hechos del mundo real, como "Maryland es un estado de los Estados Unidos".

La tupla también puede incluir otra información, como información de contexto, información estadística, información de auditoría, etc.

La adición de entidades y relaciones a un gráfico de datos ha sido típicamente un proceso manual, lo que hace que los gráficos de datos grandes sean difíciles y lentos.

Y la dificultad para crear grandes gráficos de datos puede resultar en muchas entidades "faltantes" y relaciones "faltantes" entre entidades que existen como hechos pero que aún no se han agregado al gráfico.

Tales entidades y relaciones faltantes reducen la utilidad de consultar gráficos de datos.

Algunas implementaciones extraen conocimiento sintáctico y semántico del texto, como de la Web, y lo combinan con el conocimiento semántico de los gráficos de datos.

Generar confianza en las relaciones entre entidades y hechos

El conocimiento extraído del texto y el gráfico de datos se utiliza como entrada para entrenar un algoritmo de aprendizaje automático para predecir tuplas para el gráfico de datos.

El algoritmo de aprendizaje automático entrenado puede producir múltiples características ponderadas para una relación determinada, cada característica representa una inferencia sobre cómo dos entidades podrían estar relacionadas.

El valor absoluto del peso de una característica puede representar la importancia relativa en la toma de decisiones. Google ha señalado en otras patentes que están midiendo la confianza entre tales relaciones y están llamando a esas ponderaciones "puntuaciones de asociación".

El algoritmo de aprendizaje automático entrenado puede crear tuplas adicionales a partir de un gráfico de datos a partir del análisis de documentos en un corpus grande y la información existente en el gráfico de datos.

Este método proporciona muchas tuplas adicionales para el gráfico de datos, ampliando enormemente esos gráficos de datos.

En algunas implementaciones, cada tupla predicha puede asociarse con una puntuación de confianza, y solo las tuplas que cumplen con un umbral se agregan automáticamente al gráfico de datos.

Los hechos representados por las tuplas restantes se pueden verificar manualmente antes de agregarlos a los gráficos de datos.

Algunas implementaciones permiten responder consultas en lenguaje natural a partir de gráficos de datos.

El módulo de aprendizaje automático puede asignar funciones a consultas y las funciones que se utilizan para proporcionar posibles resultados de consultas.

La formación puede implicar el uso de ejemplos positivos de registros de búsqueda o resultados de consultas obtenidos de un motor de búsqueda basado en documentos.

El módulo de aprendizaje automático entrenado puede producir múltiples características ponderadas, donde cada característica representa una posible respuesta a la consulta, representada por una ruta en el gráfico de datos.

El valor absoluto del peso de la función representa la importancia relativa en la toma de decisiones.

Una vez que el módulo de aprendizaje automático se ha entrenado correctamente con varias funciones ponderadas, puede responder a consultas de lenguaje natural utilizando información del gráfico de datos.

Generar un gráfico de datos

Un método implementado por computadora incluye recibir un módulo de aprendizaje automático capacitado para producir un modelo con múltiples características ponderadas para una consulta. Cada característica ponderada representa una ruta en un gráfico de datos.

El método también incluye recibir una consulta de búsqueda que incluye un primer término de búsqueda, mapear la consulta de búsqueda a la consulta, mapear el primer término de búsqueda a una primera entidad en el gráfico de datos e identificar una segunda entidad en el gráfico de datos usando la primera entidad. y al menos una de las múltiples características ponderadas.

La característica también puede incluir proporcionar información relacionada con la segunda entidad en respuesta a la consulta de búsqueda.

La consulta puede ser una consulta en lenguaje natural.

Como otro ejemplo, el método puede incluir entrenar el modelo de aprendizaje automático para producir el modelo, que es el foco de esta patente.

Obtención de resultados de búsqueda a partir de consultas en lenguaje natural a partir de un gráfico de datos

El entrenamiento del módulo de aprendizaje automático puede incluir generar respuestas a consultas ruidosas y generar ejemplos de entrenamiento positivos y negativos a partir de las respuestas a consultas ruidosas.

La generación de respuestas a consultas ruidosas puede incluir obtener resultados de búsqueda de un motor de búsqueda para un corpus de documentos, cada resultado tiene una puntuación de confianza y generar los ejemplos de formación puede incluir seleccionar un número predeterminado de documentos con la puntuación más alta como ejemplos de formación positivos y seleccionar un número predeterminado de documentos con una puntuación por debajo de un umbral como ejemplos de formación negativos.

La obtención de resultados de búsqueda puede incluir la lectura de resultados de búsqueda de registros de búsqueda de consultas anteriores.

La generación de ejemplos de entrenamiento positivos y negativos puede incluir realizar una coincidencia de entidades en las respuestas de la consulta y seleccionar entidades que ocurren con mayor frecuencia como ejemplos de entrenamiento positivos.

El método también puede incluir determinar una puntuación de confianza (como las puntuaciones de asociación mencionadas anteriormente) para la segunda entidad basándose en el peso de al menos una característica ponderada.

Identificar la segunda entidad en el gráfico también puede incluir seleccionar la segunda entidad en base a la puntuación de confianza, y determinar la puntuación de confianza para la segunda entidad puede incluir determinar que dos o más características se conectan a la segunda entidad y usar una combinación de las ponderaciones de las dos o más características como la puntuación de confianza para la segunda entidad.

Un método implementado por computadora incluye entrenar un módulo de aprendizaje automático para crear múltiples características ponderadas para una consulta y solicitar la consulta.

El método también incluye determinar una primera entidad a partir de la solicitud de la consulta, la primera entidad existente en un gráfico de datos que tiene entidades y bordes, y proporcionar la primera entidad y la consulta al módulo de aprendizaje automático.

Este método también puede incluir recibir un subconjunto de las múltiples características ponderadas del módulo de aprendizaje automático; y generar una respuesta a la solicitud que incluye información obtenida usando el subconjunto de las múltiples características ponderadas.

Estos pueden incluir una o más de las siguientes características. Por ejemplo, la capacitación del módulo de aprendizaje automático puede incluir:

  • Seleccionar ejemplos positivos y negativos del gráfico de datos para la consulta
  • Proporcionar los ejemplos positivos, los ejemplos negativos y el gráfico de datos al módulo de aprendizaje automático para la capacitación.
  • Recibiendo las múltiples características ponderadas del módulo de aprendizaje automático, cada característica representa un recorrido en el gráfico de datos
  • Almacenar al menos algunas de las múltiples características ponderadas en un modelo asociado con la consulta

Algunas de las características que seguirá este proceso pueden incluir limitar la longitud de la ruta para las características a una longitud predeterminada, la longitud de la ruta es el número de bordes atravesados ​​en la ruta para una característica en particular y / o se generan los ejemplos positivos y negativos. de los registros de búsqueda para un motor de búsqueda basado en documentos.

Las características ponderadas múltiples pueden excluir características que ocurren menos de un número predeterminado de veces en el gráfico de datos.

Generar la respuesta a la consulta puede incluir determinar una segunda entidad en el gráfico de datos con el peso más alto e incluir información de la segunda entidad en la respuesta.

El peso de la segunda entidad puede ser la suma del peso de cada característica asociada con la segunda entidad. Por tanto, la consulta puede representar un grupo de consultas.

Además, un sistema informático puede incluir una memoria que almacena un gráfico de datos con etiquetas de borde dirigido construido utilizando tuplas, donde cada tupla representa dos entidades vinculadas por una relación, al menos un procesador e instrucciones de almacenamiento de memoria que, cuando son ejecutadas por al menos un procesador , puede hacer que el sistema informático realice operaciones.

Esas operaciones pueden incluir:

  • Recibiendo consulta
  • Generando respuestas de consulta para la consulta
  • Generar ejemplos de entrenamiento positivos y negativos a partir de las respuestas a la consulta.
  • Proporcionar los ejemplos positivos, los ejemplos negativos y el gráfico de datos a un módulo de aprendizaje automático para la capacitación.

Las operaciones también pueden incluir recibir una pluralidad de características del módulo de aprendizaje automático para la consulta y almacenar la pluralidad de características como un modelo asociado con la consulta en el módulo de aprendizaje automático.

Deben usarse las siguientes características: características ponderadas y la consulta es una consulta en lenguaje natural.

El número de características también puede excluir características que ocurren menos de un número predeterminado de veces en el gráfico de datos y características con una probabilidad de alcanzar un objetivo correcto que cae por debajo de un umbral predeterminado.

Como parte de la generación de respuestas a consultas, las instrucciones, cuando las ejecuta al menos un procesador, pueden:

  • Hacer que el sistema informático identifique una plantilla de consulta para la consulta.
  • Examinar los registros de búsqueda en busca de consultas que coincidan con la plantilla de consulta.
  • Obtenga resultados de búsqueda de los registros de búsqueda para consultas que coincidan con la plantilla de consulta

Como parte de la generación de ejemplos de entrenamiento positivos y negativos, las instrucciones:

  • Hacer que el sistema informático extraiga una entidad de origen de una consulta en los registros de búsqueda que coincida con la plantilla de consulta.
  • Extraiga entidades de los resultados de búsqueda de la consulta que coincida con la plantilla de consulta
  • Determinar la cantidad de veces que aparece una entidad de destino en los resultados de búsqueda de la consulta que coincide con la plantilla de consulta.
  • Utilice la entidad de origen y la entidad de destino como un ejemplo de entrenamiento positivo si el número de veces alcanza un umbral

Las características pueden estar ponderadas.

Cada una de las características puede tener su propio peso asociado.

Una característica puede ser una ruta a través del gráfico de datos con una puntuación de confianza asociada. La ruta puede representar una secuencia de bordes en el gráfico de datos.

La patente nos informa acerca de las siguientes ventajas de usar el proceso en la patente Querying Data Graph

  1. Las implementaciones pueden extender automáticamente un gráfico de datos leyendo información relacional de un gran corpus de texto, como documentos disponibles en Internet u otros corpus con más de un millón de documentos, y combinar esta información con la información existente del gráfico de datos.
  2. Dichas implementaciones pueden crear millones de nuevas tuplas para un gráfico de datos con alta precisión.
  3. Algunas implementaciones también pueden asignar consultas en lenguaje natural a rutas en el gráfico de datos para producir resultados de consultas a partir del gráfico de datos.
  4. Una dificultad con las consultas en lenguaje natural es encontrar una coincidencia entre las relaciones o los bordes en el gráfico de datos con la consulta.
  5. Algunas implementaciones capacitan al módulo de aprendizaje automático para realizar el mapeo, lo que hace posible la consulta en lenguaje natural del gráfico sin una tabla de sinónimos ingresada manualmente que puede ser difícil de completar, mantener y verificar.
  6. exhaustivamente

Esta patente se puede encontrar aquí:

Consultar un gráfico de datos mediante consultas en lenguaje natural
Inventores Amarnag Subramanya, Fernando Pereira, Ni Lao, John Blitzer, Rahul Guptag
Solicitantes GOOGLE LLC
US20210026846
Fecha de presentación de la patente 13 de octubre de 2020
Número de patente 20210026846
Concedido: 28 de enero de 2021

Abstracto

Las implementaciones incluyen sistemas y métodos para consultar un gráfico de datos. Un método de ejemplo incluye recibir un módulo de aprendizaje automático entrenado para producir un modelo con múltiples características para una consulta, cada característica representa una ruta en un gráfico de datos.

El método también incluye recibir una consulta de búsqueda que incluye un primer término de búsqueda, mapear la consulta de búsqueda a la consulta y mapear el primer término de búsqueda a una primera entidad en el gráfico de datos.

El método también puede incluir identificar una segunda entidad en el gráfico de datos usando la primera entidad y al menos una de las múltiples características ponderadas y proporcionar información relacionada con la segunda entidad en respuesta a la consulta de búsqueda.

Algunas implementaciones también pueden incluir entrenar el módulo de aprendizaje automático, por ejemplo, generando ejemplos de entrenamiento positivos y negativos a partir de una respuesta a una consulta.

Comprender mejor un gráfico de datos

Un sistema de inferencia sintáctico-semántico como se describe en la patente con una implementación de ejemplo.

Este sistema podría usarse para entrenar un módulo de aprendizaje automático para que reconozca múltiples características ponderadas o recorridos en el gráfico de datos, para generar nuevas tuplas para el gráfico de datos basadas en información que ya está en el gráfico y / o en documentos de texto analizados, como examino. en la patente de extracción de entidades a la que he vinculado anteriormente u otra patente sobre reconciliación de gráficos de conocimiento sobre la que también he escrito.

El sistema puede funcionar para generar resultados de búsqueda a partir del gráfico de datos a partir de una consulta en lenguaje natural.

Esta patente describe un sistema que utilizaría documentos disponibles en Internet.

Pero se nos dice que se pueden utilizar otras configuraciones y aplicaciones.

Estos pueden incluir documentos que se originan en otro corpus de documentos, como documentos internos no disponibles en Internet u otro corpus privado, de una biblioteca, libros, corpus de datos científicos u otros grandes corpus.

El sistema de inferencia sintáctico-semántico puede ser un dispositivo informático o dispositivo que toma la forma de varios dispositivos diferentes, por ejemplo, un servidor estándar, un grupo de tales servidores o un sistema de servidor en rack.

El sistema de inferencia sintáctico-semántico puede incluir un gráfico de datos. El gráfico de datos puede ser un gráfico dirigido con etiquetas de borde. Dicho gráfico de datos almacena nodos y bordes.

Los nodos en el gráfico de datos representan una entidad, como una persona, lugar, elemento, idea, tema, concepto abstracto, elemento concreto, otra cosa adecuada o cualquier combinación de estos.

Las entidades en el gráfico de datos pueden estar relacionadas entre sí por aristas que representan relaciones entre entidades.

Por ejemplo, el gráfico de datos puede tener una entidad que corresponda al actor Kevin Bacon. Además, el gráfico de datos puede haber actuado en la relación entre la entidad Kevin Bacon y las entidades que representan películas en las que Kevin Bacon ha actuado.

Un gráfico de datos con muchas entidades e incluso un número limitado de relaciones puede tener miles de millones de conexiones.

En algunas implementaciones, los gráficos de datos pueden almacenarse en un dispositivo de almacenamiento externo accesible desde el sistema.

En algunas implementaciones, el gráfico de datos puede distribuirse entre múltiples dispositivos de almacenamiento y / o múltiples dispositivos informáticos, por ejemplo, múltiples servidores.

La patente proporciona más detalles sobre la puntuación de confianza de los hechos, el etiquetado de palabras en un corpus de partes del discurso, la extracción de entidades.

En concreto, analiza a Miles Davis, John Coltrane y Nueva York y utiliza la resolución de correferencia para comprender mejor los pronombres en los documentos.

Un gráfico de texto generado de acuerdo con la patente también puede estar vinculado al gráfico de datos.

La patente nos dice que la vinculación puede ocurrir a través de la resolución de entidades o determinando qué entidad del gráfico de datos coincide con una frase nominal en un documento.

Volvemos a la idea de usar menciones en SEO con declaraciones como esta de la patente:

Las coincidencias pueden recibir un enlace de mención entre la entidad y el sintagma nominal, como se muestra en los enlaces y 210 'de la FIG. 2.

Esto es diferente de los enlaces que vemos en HTML, pero vale la pena vigilarlo. La patente nos habla de las relaciones entre los nodos y los bordes de esta manera en un gráfico de datos:

El borde representa un borde desde la entidad del gráfico de datos hasta el sintagma nominal en el documento. Edge ′ representa el borde inverso, que va del sintagma nominal a la entidad.

Por tanto, como se demuestra en la FIG. 2, los bordes que vinculan el gráfico de datos con el gráfico de texto pueden conducir desde la entidad al sintagma nominal en una dirección hacia adelante y desde el sintagma nominal a la entidad en dirección inversa.

Por supuesto, el borde delantero puede tener un borde inverso correspondiente, y el borde inverso 'puede tener un borde delantero correspondiente, aunque estos bordes no se muestran en la figura.

La patente describe el uso de puntajes de confianza y cuenta con ponderación para confiar en entidades que usan consultas como esta, donde se nos informa sobre la capacitación usando este sistema:

En algunas implementaciones, el motor de entrenamiento puede configurarse para usar un gráfico de texto generado por el motor de análisis sintáctico-semántico a partir de documentos rastreados vinculados al gráfico de datos para generar datos de entrenamiento para el módulo de aprendizaje automático.

El motor de entrenamiento puede generar los datos de entrenamiento a partir de caminatas aleatorias con rutas restringidas en el gráfico vinculado.

Las caminatas aleatorias pueden estar limitadas por la longitud del camino, lo que significa que la caminata puede atravesar un número máximo de bordes.

Usando los datos de entrenamiento, el motor de entrenamiento puede entrenar un módulo de aprendizaje automático para generar múltiples características ponderadas para una relación particular, o en otras palabras, para inferir caminos para una relación particular.

Una característica generada por el módulo de aprendizaje automático es un gráfico de datos solo o la combinación del gráfico de datos y el gráfico de texto.

Por ejemplo, si la entidad A está relacionada con la entidad B por el borde t1, y B está relacionada con la entidad C por el borde t2, A está relacionada con C por la característica {t1, t2}.

El peso de la característica puede representar la confianza de que la ruta representa un hecho.

La patente nos muestra un ejemplo de entrenamiento positivo que enseña al algoritmo de aprendizaje automático a inferir la profesión de una entidad persona en base a las profesiones de otras personas mencionadas en conjunto con la persona consultada.

Vea la imagen destacada en la primera página de este blog que incluye personas y menciones a las profesiones de esas personas (disponible a continuación también). La patente nos dice que tal característica puede aparecer como {Mention, conj, Mention −1, Profession}, donde las Mentions representan el borde mencionado que vincula el gráfico de datos al gráfico de texto, conj es un borde en el gráfico de texto, Mention −1 representa el borde mencionado que vincula el gráfico de texto con el gráfico de datos, y Profesión es un borde en el gráfico de datos que vincula una entidad para una persona con una entidad que representa una profesión.

Consultar un gráfico de datos destacado

Luego se nos dice en la patente:

Si una entidad persona en el gráfico de datos está vinculada a una entidad profesional en el gráfico de datos por esta ruta o característica, el motor de descubrimiento de conocimiento puede inferir que el gráfico de datos debe incluir una ventaja profesional entre las dos entidades.

La función puede tener un peso que ayude al motor de descubrimiento de conocimientos a decidir si la ventaja debe existir o no en el gráfico de datos.

También aprendemos de ejemplos con el módulo de aprendizaje automático que se está capacitando para mapear las consultas de "cónyuge", "esposa", "esposo", "pareja" y "casado con" en varias rutas en el gráfico de datos, según el datos de entrenamiento.

Esas consultas se pueden agrupar para que el módulo de aprendizaje automático pueda entrenarse para grupos de consultas.

Y las consultas pueden referirse a un grupo de consultas con significados similares.

La patente proporciona muchos ejemplos de cómo se puede aprender un gráfico de datos sobre varias entidades utilizando los ejemplos anteriores. Esta formación se puede utilizar para responder consultas desde el gráfico de datos. Además, la patente nos dice que puede usar información de fuentes distintas de Internet, como un índice basado en documentos, y puede combinar los resultados del gráfico de datos con los resultados del índice basado en documentos.

Esta patente también tiene una gran sección sobre cómo Google puede expandir un gráfico de datos. El proceso se parece mucho al que describí cuando escribí sobre la extracción de entidades, al que vinculé anteriormente. Se nos dice que un gráfico de datos podría implicar aprender de millones de documentos.

La patente también tiene una sección sobre la asociación de tuplas inferidas con puntuaciones de confianza mediante el módulo de aprendizaje automático. También nos informa sobre la verificación de la puntuación de confianza de las tuplas inferidas frente a un umbral.

Propósito de consultar un gráfico de datos mediante consultas de lenguaje natural

Esta patente nos dice cómo se podría crear un gráfico de datos para identificar entidades y tuplas asociadas con ellos. Podría construir un gráfico de datos que comprenda las puntuaciones de confianza entre esas entidades y los hechos relacionados con ellas y comprender entidades similares con atributos similares. Usaría esos gráficos de datos para responder consultas sobre todas esas entidades. Este enfoque se beneficiaría de leer la Web y recopilar información sobre entidades y hechos sobre ellas a medida que las encuentra. He resumido muchos aspectos de la patente y recomiendo leerla para conocer mejor sus detalles con más profundidad. Finalmente, quería describir cómo aprende de la web y cómo se basa en ese conocimiento para responder las consultas que la gente hace.

Sospecho que nos encontraremos con muchas más patentes que describen enfoques relacionados que un motor de búsqueda podría utilizar para comprender mejor el mundo a través de lo que lee.