Le référencement se tourne vers les graphiques de données pour en savoir plus sur le Web

Publié: 2021-02-23

Le Web en tant que graphiques de données est une nouvelle direction pour le référencement

La plupart des articles que les gens écrivent sur le référencement impliquent des pages Web et des liens entre les pages. Pourtant, cet article concerne les entités et les relations entre les entités et les faits écrits sur les pages Web. Il examine également les réponses aux requêtes des graphiques de données sur le Web concernant les faits et les attributs liés aux entités trouvées sur les pages Web. Je suis récemment tombé sur un dépôt de brevet sur le site de l'OMPI (Organisation mondiale de la propriété intellectuelle) sur lequel je pensais qu'il valait la peine d'écrire. Le brevet commence par nous dire qu'il s'agit de :

Les grands graphiques de données stockent des données et des règles qui décrivent les connaissances sur les données sous une forme permettant un raisonnement déductif.

Le titre du brevet nous dit qu'il s'agit idéalement de soumettre des requêtes à un moteur de recherche en langage naturel (la façon dont les gens parlent et les ordinateurs essaient de comprendre).

Le brevet nous montre un exemple lié à des graphiques de données, des entités, telles que des personnes, des lieux, des choses, des concepts, etc., qui peuvent être stockés en tant que nœuds Les bords entre ces nœuds peuvent indiquer la relation entre les nœuds (faits que les gens peuvent trouver Dans le référencement, nous sommes habitués à entendre parler de pages Web, de nœuds et de liens entre ces pages en tant que bords.

Cette approche des entités est une façon différente de regarder les nœuds et les arêtes. Nous avons récemment vu des personnes parler de mentions d'entités à la place de liens mentionnant des pages. C'est une façon pour le référencement de penser aux objets du monde réel tels que les entités lorsqu'il s'agit d'une grande base de données telle que le Web. Le deuxième brevet de Google (un brevet provisoire) dont je suis au courant concernait des faits et une grande base de données. J'ai écrit à ce sujet dans La première invention de recherche sémantique de Google a été brevetée en 1999.

J'ai écrit à propos d'un brevet plus récent chez Google sur la façon dont le moteur de recherche peut lire le Web et en extraire des informations sur les entités et utiliser le Web comme une grande base de données dispersée. Ce poste est Extractions d'entités pour les graphes de connaissances chez Google. Nous avons vu des informations en ligne sur des programmes de pré-formation tels que BERT qui peuvent baliser des mots dans un document avec des parties du discours. Il peut également identifier et reconnaître des entités extraites de pages et apprises par le moteur de recherche.

Ce brevet le plus récent nous dit que dans de tels graphiques de données, des nœuds tels que « Maryland » et « États-Unis » pourraient être liés par les bords « dans le pays » et/ou « a déclaré ».

On nous dit également que l'unité de base de ces graphiques de données est un tuple qui comprend deux entités et une relation entre les entités.

Ces tuples peuvent représenter des faits réels, tels que « le Maryland est un État des États-Unis ».

Le tuple peut également inclure d'autres informations, telles que des informations de contexte, des informations statistiques, des informations d'audit, etc.

L'ajout d'entités et de relations à un graphique de données est généralement un processus manuel, ce qui rend les graphiques de données volumineux difficiles et lents.

Et la difficulté de créer des graphiques de données volumineux peut entraîner de nombreuses entités « manquantes » et des relations « manquantes » entre des entités qui existent en tant que faits mais n'ont pas encore été ajoutées au graphique.

De telles entités et relations manquantes réduisent l'utilité de l'interrogation des graphiques de données.

Certaines implémentations extraient les connaissances syntaxiques et sémantiques du texte, comme du Web, et les combinent avec les connaissances sémantiques des graphes de données.

Renforcer la confiance dans les relations entre les entités et les faits

Les scores d'association mesurent la confiance dans les relations entre plusieurs entités, entre les entités et les attributs de ces entités, et entre les entités et les classifications de ces entités. Ceux-ci sont générés lorsque Google extrait des informations d'entité à partir de texte sur le Web. 1/2
– Bill Slawski (@bill_slawski) 25 juin 2020

Les connaissances extraites du texte et du graphique de données sont utilisées comme entrée pour entraîner un algorithme d'apprentissage automatique afin de prédire les tuples pour le graphique de données.

L'algorithme d'apprentissage automatique formé peut produire plusieurs caractéristiques pondérées pour une relation donnée, chaque caractéristique représentant une inférence sur la façon dont deux entités pourraient être liées.

La valeur absolue du poids d'une caractéristique peut représenter l'importance relative dans la prise de décisions. Google a souligné dans d'autres brevets qu'ils mesuraient la confiance entre de telles relations et appelaient ces poids « scores d'association ».

L'algorithme d'apprentissage automatique formé peut ensuite créer des tuples supplémentaires à partir d'un graphique de données à partir de l'analyse de documents dans un grand corpus et des informations existantes dans le graphique de données.

Cette méthode fournit de nombreux tuples supplémentaires pour le graphique de données, élargissant considérablement ces graphiques de données.

Dans certaines mises en œuvre, chaque tuple prédit peut être associé à un score de confiance, et seuls les tuples qui satisfont à un seuil sont automatiquement ajoutés au graphe de données.

Les faits représentés par les tuples restants peuvent être vérifiés manuellement avant d'être ajoutés aux graphiques de données.

Certaines implémentations permettent de répondre aux requêtes en langage naturel à partir de graphiques de données.

Le module d'apprentissage automatique peut mapper des fonctionnalités aux requêtes et les fonctionnalités utilisées pour fournir des résultats de requête possibles.

La formation peut impliquer l'utilisation d'exemples positifs à partir d'enregistrements de recherche ou de résultats de requêtes obtenus à partir d'un moteur de recherche basé sur des documents.

Le module d'apprentissage automatique entraîné peut produire plusieurs caractéristiques pondérées, où chaque caractéristique représente une réponse de requête possible, représentée par un chemin dans le graphique de données.

La valeur absolue du poids de la caractéristique représente l'importance relative dans la prise de décisions.

Une fois que le module d'apprentissage automatique a été correctement formé avec plusieurs fonctionnalités pondérées, il peut répondre aux requêtes en langage naturel en utilisant les informations du graphique de données.

Générer un graphique de données

Un procédé mis en œuvre par ordinateur comprend la réception d'un module d'apprentissage automatique formé pour produire un modèle avec plusieurs caractéristiques pondérées pour une requête. Chaque caractéristique pondérée représente un chemin dans un graphique de données.

Le procédé comprend également la réception d'une requête de recherche qui comprend un premier terme de recherche, la mise en correspondance de la requête de recherche avec la requête, la mise en correspondance du premier terme de recherche avec une première entité dans le graphique de données et l'identification d'une seconde entité dans le graphique de données à l'aide de la première entité. et au moins l'une des multiples caractéristiques pondérées.

La caractéristique peut également comprendre la fourniture d'informations relatives à la seconde entité en réponse à la requête de recherche.

La requête peut être une requête en langage naturel.

Comme autre exemple, le procédé peut comprendre l'apprentissage du modèle d'apprentissage automatique pour produire le modèle, qui est l'objet de ce brevet.

Obtention de résultats de recherche à partir de requêtes en langage naturel à partir d'un graphique de données

L'apprentissage du module d'apprentissage automatique peut comprendre la génération de réponses de requête bruyantes et la génération d'exemples d'apprentissage positifs et négatifs à partir des réponses de requête bruyantes.

La génération des réponses de requête bruyantes peut comprendre l'obtention de résultats de recherche à partir d'un moteur de recherche pour un corpus de documents, chaque résultat ayant un score de confiance et la génération des exemples d'apprentissage peut comprendre la sélection d'un nombre prédéterminé de documents les mieux notés comme exemples d'apprentissage positifs et la sélection d'un nombre prédéterminé de documents avec un score inférieur à un seuil comme exemples de formation négatifs.

L'obtention de résultats de recherche peut inclure la lecture de résultats de recherche à partir d'enregistrements de recherche pour des requêtes antérieures.

La génération d'exemples d'apprentissage positifs et négatifs peut inclure la mise en correspondance d'entités sur les réponses de requête et la sélection d'entités qui apparaissent le plus souvent comme exemples d'apprentissage positifs.

Le procédé peut également comprendre la détermination d'un score de confiance (comme les scores d'association mentionnés ci-dessus) pour la seconde entité sur la base du poids d'au moins une caractéristique pondérée.

L'identification de la seconde entité dans le graphique peut également comprendre la sélection de la seconde entité sur la base du score de confiance, et la détermination du score de confiance pour la seconde entité peut comprendre la détermination que deux caractéristiques ou plus se connectent à la seconde entité et l'utilisation d'une combinaison des poids de les deux caractéristiques ou plus comme score de confiance pour la deuxième entité.

Un procédé mis en œuvre par ordinateur comprend la formation d'un module d'apprentissage automatique pour créer plusieurs caractéristiques pondérées pour une requête et demander la requête.

Le procédé comprend également la détermination d'une première entité à partir de la demande de requête, la première entité existant dans un graphe de données ayant des entités et des bords, et la fourniture de la première entité et de la requête au module d'apprentissage automatique.

Ce procédé peut également comprendre la réception d'un sous-ensemble des multiples caractéristiques pondérées du module d'apprentissage automatique ; et générer une réponse à la demande qui comprend des informations obtenues en utilisant le sous-ensemble des multiples caractéristiques pondérées.

Ceux-ci peuvent inclure une ou plusieurs des fonctionnalités suivantes. Par exemple, la formation du module d'apprentissage automatique peut inclure :

Sélection d'exemples positifs et d'exemples négatifs dans le graphique de données pour la requête
Fournir les exemples positifs, les exemples négatifs et le graphique de données au module d'apprentissage automatique pour la formation
Recevoir les multiples caractéristiques pondérées du module d'apprentissage automatique, chaque caractéristique représentant une marche dans le graphique de données
Stockage d'au moins certaines des caractéristiques pondérées multiples dans un modèle associé à la requête

Certaines des caractéristiques que ce processus suivra peuvent inclure la limitation d'une longueur de chemin pour les caractéristiques à une longueur prédéterminée, la longueur de chemin est le nombre d'arêtes traversées dans le chemin pour une caractéristique particulière, et/ou les exemples positifs et négatifs sont générés à partir des enregistrements de recherche pour un moteur de recherche basé sur des documents.

Les caractéristiques pondérées multiples peuvent exclure des caractéristiques apparaissant moins d'un nombre prédéterminé de fois dans le graphique de données.

La génération de la réponse à la requête peut comprendre la détermination d'une seconde entité dans le graphique de données avec le poids le plus élevé et l'inclusion d'informations provenant de la seconde entité dans la réponse.

Le poids de la deuxième entité peut être la somme du poids de chaque caractéristique associée à la deuxième entité. Ainsi, la requête peut représenter un cluster de requêtes.

En outre, un système informatique peut comprendre une mémoire stockant un graphe de données étiqueté sur les bords dirigé construit à l'aide de tuples, où chaque tuple représente deux entités liées par une relation, au moins un processeur, et une mémoire stockant des instructions qui, lorsqu'elles sont exécutées par au moins un processeur , peut amener le système informatique à effectuer des opérations.

Ces opérations peuvent inclure :

Requête de réception
Génération de réponses de requête pour la requête
Générer des exemples d'entraînement positifs et négatifs à partir des réponses aux requêtes
Fournir les exemples positifs, les exemples négatifs et le graphique de données à un module d'apprentissage automatique pour la formation

Les opérations peuvent également comprendre la réception d'une pluralité de caractéristiques du module d'apprentissage automatique pour la requête et le stockage de la pluralité de caractéristiques en tant que modèle associé à la requête dans le module d'apprentissage automatique.

Les fonctionnalités suivantes doivent être utilisées : les fonctionnalités pondérées et la requête étant une requête en langage naturel.

Le nombre de caractéristiques peut également exclure des caractéristiques qui apparaissent moins d'un nombre prédéterminé de fois dans le graphique de données et des caractéristiques avec une probabilité d'atteindre une cible correcte qui tombe en dessous d'un seuil prédéterminé.

Dans le cadre de la génération des réponses aux requêtes, les instructions, lorsqu'elles sont exécutées par le au moins un processeur, peuvent :

Faire en sorte que le système informatique identifie un modèle de requête pour la requête
Examiner les enregistrements de recherche pour les requêtes correspondant au modèle de requête
Obtenir des résultats de recherche à partir des enregistrements de recherche pour les requêtes correspondant au modèle de requête

Dans le cadre de la génération d'exemples d'entraînement positifs et négatifs, les instructions :

Faire en sorte que le système informatique extrait une entité source d'une requête dans les enregistrements de recherche qui correspond au modèle de requête
Extraire les entités des résultats de recherche de la requête qui correspondent au modèle de requête
Déterminer le nombre de fois qu'une entité cible apparaît dans les résultats de recherche de la requête qui correspond au modèle de requête
Utilisez l'entité source et l'entité cible comme exemple d'entraînement positif si le nombre de fois atteint un seuil

Les caractéristiques peuvent être pondérées.

Chacune des caractéristiques peut avoir son propre poids associé.

Une caractéristique peut être un chemin à travers le graphique de données avec un score de confiance associé. Le chemin peut représenter une séquence d'arêtes dans le graphe de données.

Le brevet nous parle des avantages suivants de l'utilisation du processus dans le brevet Querying Data Graph

Les implémentations peuvent étendre automatiquement un graphe de données en lisant des informations relationnelles à partir d'un corpus de texte volumineux, tels que des documents disponibles sur Internet ou d'autres corpus avec plus d'un million de documents, et combiner ces informations avec les informations existantes du graphe de données
De telles implémentations peuvent créer des millions de nouveaux tuples pour un graphique de données avec une grande précision
Certaines implémentations peuvent également mapper des requêtes en langage naturel sur des chemins dans le graphique de données pour produire des résultats de requête à partir du graphique de données
Une difficulté avec les requêtes en langage naturel est de trouver une correspondance entre les relations ou les arêtes du graphique de données avec la requête
Certaines implémentations entraînent le module d'apprentissage automatique à effectuer le mappage, ce qui rend possible l'interrogation en langage naturel du graphique sans une table de synonymes saisie manuellement qui peut être difficile à remplir, à maintenir et à vérifier

de manière exhaustive

Ce brevet est disponible ici :

Interrogation d'un graphique de données à l'aide de requêtes en langage naturel
Inventeurs Amarnag Subramanya, Fernando Pereira, Ni Lao, John Blitzer, Rahul Guptag
Candidats GOOGLE LLC
US20210026846
Date de dépôt du brevet 13 octobre 2020
Numéro de brevet 20210026846
Attribué : 28 janvier 2021

Résumé

Les implémentations comprennent des systèmes et des procédés pour interroger un graphe de données. Un exemple de procédé comprend la réception d'un module d'apprentissage automatique formé pour produire un modèle avec plusieurs fonctionnalités pour une requête, chaque fonctionnalité représentant un chemin dans un graphique de données.
Le procédé comprend également la réception d'une requête de recherche qui comprend un premier terme de recherche, le mappage de la requête de recherche à la requête et le mappage du premier terme de recherche à une première entité dans le graphique de données.
Le procédé peut également comprendre l'identification d'une seconde entité dans le graphe de données en utilisant la première entité et au moins l'une des multiples caractéristiques pondérées et la fourniture d'informations relatives à la seconde entité en réponse à la requête de recherche.
Certaines mises en œuvre peuvent également inclure l'apprentissage du module d'apprentissage automatique en générant, par exemple, des exemples d'apprentissage positifs et négatifs à partir d'une réponse à une requête.

Mieux comprendre un graphique de données

Un système d'inférence syntaxique-sémantique tel que décrit dans le brevet avec un exemple de mise en œuvre.

Ce système pourrait être utilisé pour entraîner un module d'apprentissage automatique à reconnaître plusieurs caractéristiques pondérées ou parcours dans le graphique de données, pour générer de nouveaux tuples pour le graphique de données en fonction des informations déjà présentes dans le graphique et/ou en fonction de documents texte analysés, au fur et à mesure que j'examine dans le brevet d'extraction d'entité auquel j'ai lié ci-dessus ou un autre brevet sur la réconciliation de graphes de connaissances sur lequel j'ai également écrit.

Le système peut fonctionner pour générer des résultats de recherche à partir du graphique de données à partir d'une requête en langage naturel.

Ce brevet décrit un système qui utiliserait des documents disponibles sur Internet.

Mais, on nous dit que d'autres configurations et applications peuvent être utilisées.

Ceux-ci peuvent inclure des documents provenant d'un autre corpus de documents, tels que des documents internes non disponibles sur Internet ou un autre corpus privé, provenant d'une bibliothèque, de livres, de corpus de données scientifiques ou d'autres grands corpus.

Le système d'inférence syntaxo-sémantique peut être un dispositif informatique ou un dispositif qui se présente sous la forme de plusieurs dispositifs différents, par exemple, un serveur standard, un groupe de tels serveurs, ou un système de serveur rack.

Le système d'inférence syntaxique-sémantique peut comprendre un graphique de données. Le graphe de données peut être un graphe orienté bord-étiqueté. Un tel graphe de données stocke les nœuds et les arêtes.

Les nœuds du graphique de données représentent une entité, telle qu'une personne, un lieu, un élément, une idée, un sujet, un concept abstrait, un élément concret, une autre chose appropriée ou toute combinaison de ceux-ci.

Les entités du graphe de données peuvent être liées les unes aux autres par des arêtes représentant les relations entre les entités.

Par exemple, le graphique de données peut avoir une entité qui correspond à l'acteur Kevin Bacon. De plus, le graphique de données peut avoir agi dans la relation entre l'entité Kevin Bacon et les entités représentant les films dans lesquels Kevin Bacon a agi.

Un graphe de données avec de nombreuses entités et même un nombre limité de relations peut avoir des milliards de connexions.

Dans certaines mises en œuvre, les graphiques de données peuvent être stockés dans un dispositif de stockage externe accessible depuis le système.

Dans certaines mises en œuvre, le graphe de données peut être distribué sur plusieurs dispositifs de stockage et/ou plusieurs dispositifs informatiques, par exemple, plusieurs serveurs.

Le brevet fournit plus de détails sur la notation de confiance des faits, le marquage de parties de discours de mots dans un corpus, l'extraction d'entités.

Il examine spécifiquement Miles Davis, John Coltrane et New York et utilise la résolution de coréférence pour mieux comprendre les pronoms dans les documents.

Un graphique de texte généré selon le brevet peut également être lié au graphique de données.

Le brevet nous dit que la liaison peut se produire via la résolution d'entités ou la détermination de l'entité du graphique de données qui correspond à une phrase nominale dans un document.

Nous sommes revenus à l'idée d'utiliser des mentions dans le référencement avec des déclarations comme celle-ci du brevet :

Les correspondances peuvent recevoir un lien de mention entre l'entité et le syntagme nominal, comme illustré par les liens et 210' de la Fig. 2.

C'est différent des liens que nous voyons en HTML, mais cela vaut la peine de garder un œil dessus. Le brevet nous parle des relations entre les nœuds et les bords comme ceci dans un graphe de données :

Bord représente un bord entre l'entité du graphique de données et le syntagme nominal dans le document. Bord′ représente le bord inverse, allant du syntagme nominal à l'entité.
Ainsi, comme le montre la Fig. 2, les arêtes qui relient le graphe de données au graphe de texte peuvent conduire de l'entité à la phrase nominale dans le sens direct et de la phrase nominale à la direction inverse de l'entité.
Bien entendu, le bord avant peut avoir un bord arrière correspondant, et le bord arrière' peut avoir un bord avant correspondant, bien que ces bords ne soient pas représentés sur la figure.

Le brevet décrit l'utilisation de scores de confiance et de poids pour faire confiance à des entités utilisant des requêtes comme celle-ci, où l'on nous parle de la formation à l'aide de ce système :

Dans certaines mises en œuvre, le moteur de formation peut être configuré pour utiliser un graphique de texte généré par le moteur d'analyse syntaxique-sémantique à partir de documents analysés liés au graphique de données afin de générer des données de formation pour le module d'apprentissage automatique.
Le moteur d'apprentissage peut générer les données d'apprentissage à partir de parcours aléatoires contraints par un chemin dans le graphe lié.
Les marches aléatoires peuvent être limitées par une longueur de chemin, ce qui signifie que la marche peut traverser jusqu'à un nombre maximum d'arêtes.
À l'aide des données d'entraînement, le moteur d'entraînement peut entraîner un module d'apprentissage automatique pour générer plusieurs caractéristiques pondérées pour une relation particulière, ou en d'autres termes, pour déduire des chemins pour une relation particulière.
Une fonctionnalité générée par le module d'apprentissage automatique est un graphique de données seul ou la combinaison du graphique de données et du graphique de texte.
Par exemple, si l'entité A est liée à l'entité B par l'arête t1 et B est liée à l'entité C par l'arête t2, A est liée à C par la caractéristique {t1, t2}.
Le poids de la caractéristique peut représenter la confiance que le chemin représente un fait.

Le brevet nous montre un exemple d'entraînement positif qui enseigne à l'algorithme d'apprentissage automatique à déduire la profession d'une entité personne en fonction des professions d'autres personnes mentionnées en conjonction avec la personne interrogée.

Voir l'image en vedette sur la première page de ce blog qui inclut des personnes et des mentions aux professions de ces personnes (disponible ci-dessous maintenant aussi). Le brevet nous indique qu'une telle caractéristique peut apparaître comme {Mention, conj, Mention -1, Profession}, où les mentions représentent le bord mentionné qui relie le graphique de données au graphique de texte, conj est un bord dans le graphique de texte, Mention −1 représente l'arête mentionnée qui relie le graphique de texte au graphique de données, et Profession est une arête dans le graphique de données qui relie une entité pour une personne à une entité représentant une profession.

Interrogation d'un graphique de données en vedette

On nous dit alors dans le brevet :

Si une entité personne dans le graphique de données est liée à une entité professionnelle dans le graphique de données par ce chemin ou cette fonctionnalité, le moteur de découverte des connaissances peut en déduire que le graphique de données doit inclure un avantage professionnel entre les deux entités.
La caractéristique peut avoir un poids qui aide le moteur de découverte de connaissances à décider si l'arête doit exister ou non dans le graphique de données.

Nous apprenons également des exemples avec le module d'apprentissage automatique en cours de formation pour mapper les requêtes pour « conjoint », « femme », « mari », « autre personne importante » et « marié à » vers divers chemins dans le graphique de données, en fonction du données d'entraînement.

Ces requêtes peuvent être regroupées afin que le module d'apprentissage automatique puisse être formé pour des groupes de requêtes.

Et les requêtes peuvent faire référence à un groupe de requêtes ayant des significations similaires.

Le brevet fournit de nombreux exemples de la façon dont un graphique de données sur plusieurs entités peut être appris à l'aide des exemples ci-dessus. Une telle formation peut ensuite être utilisée pour répondre aux requêtes du graphe de données. De plus, le brevet nous indique qu'il peut utiliser des informations provenant de sources autres qu'Internet, comme un index basé sur des documents, et peut combiner les résultats du graphique de données avec les résultats de l'index basé sur des documents.

Ce brevet a également une grande section sur la façon dont Google peut étendre un graphique de données. Le processus ressemble beaucoup à celui que j'ai décrit lorsque j'ai écrit sur l'extraction d'entités, auquel j'ai lié ci-dessus. On nous dit qu'un graphique de données pourrait impliquer l'apprentissage de millions de documents.

Le brevet contient également une section sur l'association de tuples inférés avec des scores de confiance à l'aide du module Machine Learning. Il nous indique également comment vérifier le score de confiance des tuples inférés par rapport à un seuil.

Objectif de l'interrogation d'un graphique de données à l'aide de requêtes en langage naturel

Ce brevet nous explique comment un graphe de données pourrait être créé pour identifier les entités et les tuples associés à ceux-ci. Il pourrait créer un graphique de données comprenant les scores de confiance entre ces entités et les faits qui s'y rapportent et comprendre des entités similaires avec des attributs similaires. Il utiliserait ces graphiques de données pour répondre aux requêtes sur toutes ces entités. Cette approche bénéficierait de la lecture du Web et de la collecte d'informations sur les entités et les faits les concernant au fur et à mesure qu'elles les rencontrent. J'ai résumé de nombreux aspects du brevet et je recommande de le lire pour mieux en savoir plus sur ses détails. Enfin, je voulais décrire comment il apprend du Web qu'il rencontre et s'appuie sur ces connaissances pour répondre aux questions que les gens posent.

Je soupçonne que nous rencontrerons de nombreux autres brevets décrivant des approches connexes qu'un moteur de recherche pourrait utiliser pour mieux comprendre le monde à travers ce qu'il lit.