Comment Google traite les requêtes : ressources de résolution d'entité

Publié: 2017-07-18

Google effectue une résolution d'entité pour comprendre les entités qu'il voit dans les requêtes

Le Web est rempli d'entités – des informations sur des personnes, des lieux et des choses. Un moteur de recherche peut collecter des connaissances sur les connexions entre les entités. Dans la présentation, How Google Works, Paul Haahr de Google nous a dit que Google essaiera d'identifier les entités qui apparaissent dans les requêtes. Sa présentation ne se limite pas à parcourir le Web et à localiser la présence de liens sur les pages, et il est recommandé de la regarder.

Un brevet qui a été accordé à Google le 4 juillet se concentre sur la présence d'entités dans les requêtes et leur compréhension. Il se concentre sur ce qu'on appelle la résolution d'entités ou ce que peut représenter une entité dans une requête. Quand j'ai regardé le brevet, j'ai été impressionné par le nombre de références que les demandeurs de brevet ont déposées avec le brevet, et j'ai voulu les lire. Je pensais qu'ils valaient la peine d'être partagés avec les autres aussi. Pas pour prouver un point particulier ou pour adopter une position ou une opinion particulière, mais pour donner à toute personne disposée à prendre le temps de lire le matériel pour jeter un coup d'œil aux derniers articles et recherches impliquant la résolution d'entités. J'en ai lu quelques-uns et j'en lirai d'autres. Certains de ces articles sont co-écrits par des chercheurs de Google. Si vous trouvez quelque chose qui vous surprend, partagez-le dans les commentaires. Comprendre les entités dans les requêtes a beaucoup de sens, car ce processus peut mettre ces requêtes en contexte. Avoir une idée de la façon dont Google pourrait traiter une requête peut donner des idées qui vont au-delà des scores de recherche d'informations et des scores de PageRank pour les pages. Comment Google s'adapte-t-il au contexte, à la présence d'entités dans une requête ?

Par exemple, Newcastle peut faire référence à Newcastle upon Tyne, au Royaume-Uni, au club de football (soccer) Newcastle United, ou à la boisson Newcastle Brown Ale. Le contexte peut aider à lever l'ambiguïté du texte de référence. Par exemple, si le texte de référence inclut le contexte de « John joue pour Newcastle », la mention est très probablement le club de football, tandis que « John est né à Newcastle » fait probablement référence à l'emplacement, etc.

Nous savons que Google tentait de mieux comprendre le contexte dans le développement de mots-clés, comme je l'ai écrit dans Google Patents Context Vectors to Improve Search. Un brevet de Google sur une meilleure compréhension du contexte des entités peut ajouter du sens aux pages et à ce qu'un moteur de recherche sait à leur sujet. L'objectif de ce nouveau brevet est de créer des modèles qui peuvent aider à comprendre les requêtes à l'aide de la résolution d'entités :

Les modèles prédisent la probabilité d'un événement à partir d'observations. Des algorithmes d'apprentissage automatique peuvent être utilisés pour entraîner les paramètres du modèle. Par exemple, le modèle peut stocker un ensemble de caractéristiques et un score de prise en charge pour chacune d'une pluralité d'entités différentes. Le score de support représente un score de probabilité que le modèle a appris, une probabilité que la caractéristique se produise étant donné l'entité. Les modèles utilisés dans la résolution d'entités reposent sur trois composants : un modèle de mention, un modèle de contexte et un modèle de cohérence. Le modèle mentionné représente la croyance antérieure qu'une phrase particulière fait référence à une entité particulière dans le graphique de données. Le modèle de contexte déduit l'entité la plus probable pour une mention étant donné le contexte textuel de la mention. Dans un modèle de contexte, chaque caractéristique peut représenter une phrase faisant partie du contexte de la mention d'entité. Par exemple, l'expression « président » peut avoir un score de soutien (ou un score de probabilité) pour les entités de « Barack Obama », « Bill Clinton », « Nicolas Sarkozy » et bien d'autres. De même, l'expression « joue pour » peut avoir un score de soutien pour divers groupes, équipes, etc. Le contexte discuté ci-dessus peut être représenté par un ensemble de caractéristiques, ou d'expressions, coexistant (par exemple, se produisant autour) du texte de référence. , ou mention d'entité. Le modèle de cohérence tente de forcer toutes les expressions de référence dans un document à résoudre les entités qui sont liées les unes aux autres dans le graphique de données. Mais un modèle de cohérence introduit des dépendances entre les résolutions de toutes les mentions dans un document et nécessite que les relations d'entité pertinentes dans le graphique de données soient disponibles au moment de l'inférence, ce qui augmente les coûts d'inférence et d'accès au modèle.

Le brevet de résolution d'entité est :

Modèle de contexte additif pour la résolution d'entité
Inventeurs : Amarnag Subramanya, Michael Ringgaard et Fernando Carlos das Neves Pereira
Cessionnaire : Google
Brevet américain : 9 697 475
Accordé : 4 juillet 2017
Déposé : 23 décembre 2013

Résumé:

L'invention concerne des systèmes et des procédés d'utilisation d'un modèle de contexte additif pour la désambiguïsation d'entité. Un exemple de procédé peut comprendre la réception d'une plage de texte à partir d'un document et d'un vecteur de phrase pour la plage. Le vecteur de phrase peut avoir plusieurs caractéristiques et représenter un contexte pour l'étendue. Le procédé comprend également la détermination du nombre d'entités candidates à partir d'une base de connaissances qui a été référencée par l'étendue. Pour chacun du nombre d'entités candidates, le procédé peut comprendre la détermination d'un score de prise en charge pour l'entité candidate pour chaque caractéristique dans le vecteur de phrase, la combinaison des scores de prise en charge de manière additive, et le calcul d'une probabilité que l'étendue se résolve en l'entité candidate compte tenu du contexte . Le procédé peut également comprendre la résolution de l'étendue en une entité candidate avec une probabilité la plus élevée.

Références des candidats

Lorsque j'ai vu tous les articles mentionnés dans ce brevet, j'ai voulu tous les lire et partager des liens vers eux. dernières recherches sur la résolution d'entités. Je vais les parcourir dans les semaines à venir. Je le considère comme une opportunité d'apprendre de certaines des meilleures sources disponibles. Si quelque chose ressort de l'un de ces articles, j'aimerais connaître votre opinion à leur sujet.

Chu, et al, "Map-Reduce for Machine Learning on Multicore", In NIPS, 2006, pp. 281-288. cité par le demandeur.

Friedman, et al, « Additive Logistic Regression : A Statistical View of Boosting », Article invité spécial, The Annals of Statistics, vol. 28, n° 2, 2000, p. 337-407. cité par le demandeur.

“Ambiverse: AIDA: Accurate Online Disambiguation of Named Entities in Text and Tables“, Max Planck Institut Informatik, disponible en ligne sur http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/r -esearch/yago-naga/aida/, 2013, 4 pages. cité par le demandeur.

Baluja et al., "Video Suggestion and Discovery for YouTube: Taking Random Walks Through the View Graph", Conférence internationale sur le World Wide Web (WWW 2008), 21-25 avril 2008, 10 pages. cité par le demandeur.

Bollacker et al., "Freebase: A Collaboratively Created Graph Database for Structuring Human Knowledge", Actes de la conférence internationale ACM SIGMOD sur la gestion des données, 9-12 juin 2008, pp. 1247-1249. cité par le demandeur.

Bunescu et al., « Using Encyclopedic Knowledge for Named Entity Disambiguation », Actes de la 11e conférence du chapitre européen de l'Association for Computational Linguistics, avril 2006, pp. 9-16. cité par le demandeur.

Cucerzan, Silviu, "Large-Scale Named Entity Disambiguation Based on Wikipedia Data", Actes de la conférence conjointe sur les méthodes empiriques dans Ze et al.,

« Désambiguïsation des entités pour la population de la base de connaissances », Actes de la 23e Conférence internationale sur la linguistique informatique, août 2010, pp. 277-285. cité par le demandeur.

Duchi et al., « Apprentissage efficace en ligne et par lots à l'aide de la division avant-arrière », Journal of Machine Learning Research, vol. 10, 2009, p. 2899-2934. cité par le demandeur.

Ferragina et al., "TAGME: On-the-fly Annotation of Short Text Fragments (by Wikipedia Entities)", Actes de la 19e conférence internationale de l'ACM sur la gestion de l'information et des connaissances, 26-30 octobre 2010, pp. 1625- 1628. cité par le demandeur.

Finin et al., « Utilisation de la wikitologie pour la résolution de coréférence d'entités inter-documents », Association pour l'avancement de l'intelligence artificielle, 2009, pp. 29-35. cité par le demandeur.

Finkel et al., « Incorporing Non-local Information into Information Extraction Systems by Gibbs Sampling », Actes de la 43e réunion annuelle de l'ACL, juin 2005, 363-370. cité par le demandeur.

Gabrilovich et al., « Exploiter l'expertise de 70 000 éditeurs humains : génération de fonctionnalités basée sur les connaissances pour la catégorisation de texte », Journal of Machine Learning Research, vol. 8, 2007, pages 2297-2345. cité par le demandeur.

Hachey et al., « Evaluating Entity Linking with Wikipedia », Intelligence artificielle, vol. 194, 2013, p. 130-150. cité par le demandeur.

Haghighi et al., « Simple Correference Resolution with Rich Syntactic and Semantic Features », Actes de la conférence sur les méthodes empiriques dans le traitement du langage naturel, 6-7 août 2009, pp. 1152-1161. cité par le demandeur.

Han et al., « Un modèle de mention d'entité générative pour lier des entités à une base de connaissances », Actes de la 49e réunion annuelle de l'Association for Computational Linguistics : Human Language Technologies – vol. 1, 19-24 juin 2011, p. 945-954. cité par le demandeur.

Han et al., « An Entity-Topic Model for Entity Linking », Actes de la conférence conjointe 2012 sur les méthodes empiriques dans le traitement du langage naturel et l'apprentissage numérique du langage naturel, 12-14 juillet 2012, pp. 105-115. cité par le demandeur.

Han et al., « Désambiguïsation des entités nommées en tirant parti des connaissances sémantiques de Wikipedia », Actes de la 18e conférence ACM sur la gestion de l'information et des connaissances, 2-6 novembre 2009, pp. 215-224. cité par le demandeur.

Hoffart et al., « Robust Disambiguation of Named Entities in Text », Actes de la conférence sur les méthodes empiriques dans le traitement du langage naturel, 27-31 juillet 2011, pp. 782-792. cité par le demandeur.

Kulkarni et al., « Annotation collective des entités Wikipedia dans le texte Web », Actes de la 15e conférence internationale de l'ACM sur la découverte des connaissances et l'exploration de données, 28 juin-juil. 1, 2009, p. 457-466. cité par le demandeur.

Kwiatkowski et al., "Généralisation lexicale dans l'induction de grammaire CCG pour l'analyse sémantique", Actes de la conférence sur les méthodes empiriques dans le traitement du langage naturel, 27-31 juillet 2011, pp. 1512-1523. cité par le demandeur.

Lin et al., « Liaison d'entités à l'échelle du Web », Proc. du Joint Workshop on Automatic Knowledge Base Construction & Web-scale Knowledge Extraction, 7-8 juin 2012, pp. 84-88. cité par le demandeur.

Mayfield et al., « Cross-Document Correference Resolution : A Key Technology for Learning by Reading », Spring Symposium on Learning by Reading and Learning to Read, mars 2009, 6 pages. cité par le demandeur.

Mihalcea et al., « Wikify ! Relier les documents aux connaissances encyclopédiques », Actes de la 16e conférence de l'ACM sur la gestion de l'information et des connaissances, 6-8 novembre 2007, pp. 233-241. cité par le demandeur.

Milne et al., « Learning to Link with Wikipedia », Actes de la 17e conférence de l'ACM sur la gestion de l'information et des connaissances, 26-30 octobre 2008, pp. 509-518. cité par le demandeur.

Nigam et al., « Classification de texte à partir de documents étiquetés et non étiquetés à l'aide de l'EM », Machine Learning, vol. 39, 2000, p. 103-134. cité par le demandeur.

Orr et al., « Learning from Big Data : 40 Million Entities in Context », disponible en ligne <https://research.googleblog.com/2013/03/learning-from-big-data-40-million.html >, 8 mars 2013, 6 pages. cité par le demandeur.

Ratinov et al., « Algorithms locaux et mondiaux pour la désambiguïsation de Wikipédia », Actes de la 49e réunion annuelle de l'Association for Computational Linguistics, 19-24 juin 2011, pp. 1375-1384. cité par le demandeur.

Sil et al., « Linking Named Entities to Any Database », Actes de la conférence conjointe sur les méthodes empiriques dans le traitement du langage naturel et l'apprentissage numérique du langage naturel, 12-14 juillet 2012, pp. 116-127. cité par le demandeur.

Subramanya et al., « Apprentissage semi-supervisé avec propagation de mesures », Journal of Machine Learning Research, vol. 12, 2011, pages 3311-3370. cité par le demandeur.

Talukdar et al., « Experiences in Graph-based Semi-Supervised Learning Methods for Class-Instance Acquisition », Actes de la 48e réunion annuelle de l'Association for Computational Linguistics, 11-16 juillet 2010, pp. 1473-1481. cité par le demandeur.

Talukdar et al., « Nouveaux algorithmes régularisés pour l'apprentissage transductif », Actes de la conférence européenne sur l'apprentissage automatique et la découverte des connaissances dans les bases de données : partie II, 2009, pp. 442-457. cité par le demandeur.

Talukdar et al., « Acquisition faiblement supervisée d'instances de classe étiquetées à l'aide de promenades aléatoires de graphes », Actes de la conférence sur les méthodes empiriques dans le traitement du langage naturel, octobre 2008, pp. 582-590. cité par le demandeur.

Le brevet décrit un processus pour lever l'ambiguïté des entités, mais il m'a semblé que pouvoir parcourir les ressources du brevet était précieux et qu'il valait la peine de se concentrer sur cet aspect du brevet, car j'en apprenais davantage sur leur façon de faire. résolution de l'entité. Je vais les parcourir. Cela peut sembler un exercice académique, mais la résolution d'entités fait désormais partie de la façon dont Google traite les requêtes et mérite d'être renseignée. Lorsque Google voit « New Castle » dans une requête, il doit savoir s'il s'agit de la bière, de l'équipe ou de l'emplacement.

Comment le montreriez-vous à un moteur de recherche ?