¿Cómo podría Google extraer información de relaciones entre entidades de las páginas de preguntas y respuestas?
Publicado: 2019-10-30¿Qué tan útiles pueden ser los sitios web de preguntas y respuestas para proporcionar un motor de búsqueda con información sobre entidades e información de relación entre entidades sobre esas entidades y otras entidades y propiedades de entidades?
Una patente concedida recientemente por Google analiza esas posibles fuentes de información y nos dice más.
Uno de los inventores de esta patente, Evgeniy Gabrilovich, trabajó en el proyecto de bóveda de conocimientos de Google, que habla de cosas como la extracción de información de relaciones de texto en la web sobre entidades. Vale la pena mirar una presentación que se preparó durante el desarrollo del proyecto de la bóveda de conocimientos para ver qué dice sobre la extracción de información de relación entre entidades de la Web. Puede encontrarlo en: Construcción y minería de gráficos de conocimiento a escala web
Relaciones de candidatos entre entidades
Esa patente, otorgada a Google el 22 de octubre de 2019, nos dice cómo esos sitios pueden usarse como recursos para proporcionar información sobre las relaciones entre entidades, como "¿Con quién está casado Barack Obama?" Esa página también puede incluir la respuesta, "Michelle Obama", también.
La patente señala que tales páginas pueden identificar las relaciones entre entidades al observar la pregunta involucrada:
Un tipo de relación se determina en función del texto de la pregunta, por ejemplo, al determinar que los términos "casado con" en el texto de la pregunta probablemente indiquen una relación conyugal entre una entidad indicada en el texto de la pregunta y una entidad indicada en el texto de la respuesta. Las entidades también se identifican a partir del texto de la pregunta y el texto de la respuesta. Por ejemplo, el sistema informático puede identificar la entidad "Barack Obama" del texto de la pregunta y la entidad "Michelle Obama" del texto de la respuesta.
Habiendo identificado un tipo de relación y las dos entidades identificadas por el texto de la pregunta y la respuesta, se determina una relación candidata. Por ejemplo, la relación de candidato determinada puede ser una relación conyugal entre las entidades "Barack Obama" y "Michelle Obama".
Pasar de posibles respuestas a posibles respuestas
La patente nos dice que un sitio de preguntas y respuestas posiblemente pueda indicar una serie de posibles respuestas a una pregunta sobre una relación conyugal con Barack Obama, que podrían incluir "Michelle Obama", "Hillary Clinton" o "Laura Bush".
¿Cómo podría Google decidir qué respuesta de candidato es más probable?
Google puede calificar cada una de las relaciones de candidatos basándose en una "frecuencia con la que se determinó la relación de candidatos a partir de las páginas web de los sitios web de preguntas y respuestas". La patente nos dice que:
La relación candidata que tiene la puntuación más alta se selecciona como la relación válida más probable para el tipo de relación y la entidad en particular. Por ejemplo, al determinar que la relación conyugal del candidato entre "Barack Obama" y "Michelle Obama" es la relación conyugal que ocurre con más frecuencia para la entidad "Barack Obama", el sistema informático determina que existe una relación conyugal entre "Barack Obama" y "Michelle Obama". El sistema informático puede entonces establecer, en un modelo entidad-relación, una relación conyugal entre la entidad "Barack Obama" y la entidad "Michelle Obama".
¿Qué tiene de innovador el proceso descrito en esta patente? Nos dice que estos pasos son:
- Implica las acciones de obtención de un recurso.
- Identificar la primera parte del texto del recurso que se caracteriza como pregunta.
- La segunda parte del texto del recurso que se caracteriza como respuesta a la pregunta.
- Identificar una entidad a la que hacen referencia uno o más términos de la primera parte del texto que se caracteriza como la pregunta.
- Un tipo de relación al que hacen referencia uno o más términos de la primera parte del texto que se caracteriza como la pregunta.
- Una entidad a la que hace referencia la segunda parte del texto que se caracteriza como la respuesta a la pregunta.
- Ajustar una puntuación asociada con una relación del tipo de relación para la entidad a la que hace referencia el uno o más términos de la primera parte del texto que se caracteriza como la pregunta y la entidad a la que hace referencia la segunda parte del texto que se caracteriza como la respuesta a la pregunta

Este proceso utiliza sitios web de preguntas y respuestas (Q&A)
Considera las preguntas como plantillas para identificar la primera entidad y el tipo de relación que se muestra en la pregunta, y cada plantilla en el sitio de preguntas y respuestas puede estar asociada con un tipo de relación en particular.
Esta patente de información de relación de entidad se puede encontrar en:
Extracción de información de sitios web de preguntas y respuestas
Inventores: Wei Lwun Lu, Denis Savenkov, Amarnag Subramanya, Jeffrey Dalton, Evgeniy Gabrilovich, Eugene Agichtein
Cesionario: Google LLC
Patente de EE. UU.: 10,452,694
Concedido: 22 de octubre de 2019
Archivado: 20 de diciembre de 2017
Abstracto
Métodos, sistemas y aparatos para la obtención de un recurso, identificando una primera parte del texto del recurso que se caracteriza como pregunta, y una segunda parte del texto del recurso que se caracteriza como respuesta a la pregunta, identificando una entidad que se hace referencia a uno o más términos del texto que se caracteriza como la pregunta, un tipo de relación al que se hace referencia por uno o más términos del texto que se caracteriza como la pregunta, y una entidad a la que se hace referencia en el texto que es caracterizada como la respuesta a la pregunta, y ajustando un puntaje para una relación del tipo de relación para la entidad a la que hace referencia el uno o más términos del texto que se caracteriza como la pregunta y la entidad a la que hace referencia el texto que se caracteriza por ser la respuesta a la pregunta.
Modelos de información de relación entre entidades
El enfoque de esta patente es construir un modelo entidad-relación que especifique las relaciones que se determinan como recursos del sitio web de preguntas y respuestas.
Este sistema incluye:
Una base de datos de recursos de preguntas y respuestas
Un selector de recursos de preguntas y respuestas
Un clasificador de preguntas y respuestas
Un analizador de oraciones
Un identificador de entidad
Un identificador de relación
Un agregador
Una base de datos de relaciones de candidatos
Un selector de relaciones
Un modelo entidad-relación.
Las entidades representadas en el modelo entidad-relación se pueden representar como nodos, y las relaciones entre entidades se representan como bordes. Las puntuaciones de confianza sobre las relaciones entre entidades son una indicación de la probabilidad de que esas relaciones sean verdaderas.
Al extraer información de la relación entre entidades de los recursos del sitio web de preguntas y respuestas, este sistema puede buscar en una base de datos de recursos de preguntas y respuestas que incluye varios recursos de los sitios web de preguntas y respuestas.
Esos recursos pueden incluir:
- Varias páginas web de sitios web de preguntas y respuestas0, como versiones archivadas de las páginas web de sitios web de preguntas y respuestas
- Metadatos relacionados con las páginas web de los sitios web de preguntas y respuestas
- Documentos accesibles en sitios web de preguntas y respuestas
- Imágenes accesibles en sitios web de preguntas y respuestas
- Vídeos accesibles en sitios web de preguntas y respuestas
- Audio accesible en sitios web de preguntas y respuestas
- Otros recursos asociados o accesibles en los sitios web de preguntas y respuestas
La base de datos de recursos de preguntas y respuestas también puede incluir recursos de fuentes distintas a los sitios web de preguntas y respuestas, como:

- Uno o más recursos de los sitios web del foro
- Plataformas de redes sociales
- Sitios web de preguntas frecuentes (FAQ) o páginas web de preguntas frecuentes
- Sitios web informativos
- Otras fuentes donde hay preguntas y respuestas disponibles.
Cuando este identificador de preguntas busca preguntas y respuestas que identifican entidades y relaciones entre ellas, puede comenzar a analizar el texto en una página de preguntas y respuestas para encontrar la presencia de ciertos caracteres o cadenas de caracteres, como un signo de interrogación. También puede buscar palabras o preguntas que indiquen texto de pregunta, como:
- "Me preguntaba"
- "Estoy preguntando"
- "pregunta"
- "quién"
- "qué"
- "donde"
- "Cuándo"
- "por qué"
- "cómo"
- etc.
De la misma manera, cuando se buscan respuestas, el texto de las páginas se puede analizar para encontrar palabras que puedan indicar texto de respuesta, como:
- "Sé"
- "Yo creo"
- "Creo"
- "La respuesta es"
- "respuesta"
- etc.
La parte de este proceso que implica analizar el texto de una página en un enfoque de procesamiento de lenguaje natural que etiqueta partes del discurso:
Por ejemplo, el analizador de oraciones puede recibir el texto de la pregunta: "¿Con quién está casado Barack Obama?" y puede anotar el texto de la pregunta como "¿QUIÉN / pronombre ES / verbo BARACK OBAMA / sustantivo CASADO / adjetivo TO / verbo?" De manera similar, el analizador de oraciones puede recibir el texto de respuesta "Michelle Obama" y puede anotar el texto de respuesta como "MICHELLE OBAMA / sustantivo". El analizador de oraciones puede además determinar una clase o hiperónimo de una o más unidades gramaticales en los textos anotados, por ejemplo, para determinar que los términos "Barack Obama" constituyen una clase de sustantivo "persona" y que los términos "Michelle Obama" también constituyen una clase de sustantivo “persona”.
Una vez analizados los textos de preguntas y respuestas, el analizador de oraciones proporciona los textos de preguntas y respuestas anotados al identificador de entidad y al identificador de relación. En implementaciones alternativas, el texto de la pregunta y / o el texto de la respuesta pueden proporcionarse al identificador de entidad y al identificador de relación sin que el analizador de oraciones lo procese. En tales implementaciones, el identificador de entidad y / o el identificador de relación pueden realizar operaciones similares a las realizadas por el analizador de oraciones o pueden identificar entidades o relaciones a partir del texto de la pregunta y / o el texto de la respuesta sin que se anote el texto de la pregunta o el texto de la respuesta. En tales casos, el clasificador de preguntas y respuestas puede proporcionar los textos de preguntas y respuestas al identificador de entidad y al identificador de relación.
El texto de la pregunta y el texto de la respuesta que se identifican pueden identificar el tipo de relación de entidad sobre la que se pregunta y se responde en una página de preguntas y respuestas.
Otro ejemplo de cómo se puede analizar una respuesta a partir del texto de la pregunta y el texto de la respuesta:
Por ejemplo, el identificador de la entidad puede recibir el texto de la pregunta "¿Con quién está casado Barack Obama?" e identificar la entidad "Barack Obama", y puede recibir el texto de respuesta "Vive con su esposa Michelle Obama en la Casa Blanca" e identificar las entidades "Michelle Obama" y "Casa Blanca". El identificador de entidad puede determinar que las entidades "Barack Obama" y "Michelle Obama" pertenecen a una clase de sustantivo de "persona" y que la entidad "Casa Blanca" es de una clase de sustantivo de "lugar". El identificador de entidad puede seleccionar las entidades "Barack Obama" y "Michelle Obama" como entidades potencialmente relacionadas en función de que ambas entidades sean de la clase de sustantivo "persona" y, por lo tanto, es más probable que estén relacionadas de alguna manera que una persona en particular. estar relacionado con un lugar en particular.
¿Qué otros tipos de información entidad-relación se pueden encontrar utilizando un enfoque como este?
- Relaciones conyugales
- Relaciones familiares
- Relaciones politicas
- Relaciones comerciales
- Relaciones de propiedad
- Relaciones de residencia
- Relaciones con el lugar de nacimiento
- Relaciones empleado / empleador
- Relaciones laborales
- Otras relaciones entre personas, lugares o cosas.
Algunos otros tipos de información sobre relaciones entre entidades
Entre entidades particulares y valores numéricos o fechas. Dichos valores numéricos pueden incluir:
- La edad de una persona
- Valor neto
- Número de Jersey
- Altura
- Fecha de nacimiento
- Fecha de la boda
- Fecha de muerte
- Fecha de fundación de una empresa
- Ciudad con un tamaño de población
- etc.
Un "comparador" puede determinar si una pregunta en particular se ajusta a una plantilla en particular accesible por el identificador de relación, creando una plantilla como, "¿Con quién está casada [PERSON]?" una relación sobre la que recopilar información.
La patente intenta señalarnos que estas plantillas intentarían hacer coincidir los tipos correctos de entidades con las plantillas, por lo que una entidad que puede indicar un lugar podría no funcionar con un identificador de relación que determina un tipo de relación conyugal, proporcionando el ejemplo : "¿Con quién está casado Estados Unidos?"
Así que probé esa consulta y obtuve una respuesta inesperada:

Conclusión
Google acaba de anunciar que estaba utilizando un enfoque de procesamiento de lenguaje natural llamado BERT. Mencioné ese enfoque cuando escribí la publicación Semantic Frames and Word Embeddings en Google en mayo. Esta patente proporciona un buen ejemplo de cómo se puede utilizar el procesamiento del lenguaje natural para comprender preguntas y respuestas en las páginas de preguntas y respuestas, y si se ajustan a algunas plantillas conocidas para identificar relaciones entre entidades y propiedades de entidades.
La patente proporciona algunos ejemplos adicionales de cómo podría intentar ganar más confianza sobre las relaciones entre entidades o propiedades de esas entidades. Pero esta patente es bastante descriptiva de cómo se puede extraer la información de relación entidad-entidad de los sitios web de preguntas y respuestas.
