Cum procesează Google interogările: Resurse de rezolvare a entităților
Publicat: 2017-07-18Google efectuează Rezolvarea entităților pentru a înțelege entitățile pe care le vede în interogări
Web-ul este plin de entități – informații despre oameni, locuri și lucruri. Un motor de căutare poate colecta cunoștințe despre conexiunile dintre entități. În prezentarea, Cum funcționează Google, Paul Haahr de la Google ne-a spus că Google va încerca să identifice entitățile care apar în interogări. Prezentarea sa implică mai mult decât accesarea cu crawlere pe Web și localizarea prezenței linkurilor pe pagini și se recomandă vizionarea.
Un brevet care a fost acordat Google pe 4 iulie se concentrează pe prezența entităților în interogări și pe înțelegerea acestora. Se concentrează pe ceva numit rezoluție de entitate sau ceea ce ar putea reprezenta o entitate dintr-o interogare. Când m-am uitat la brevet, am fost impresionat de numărul de referințe pe care solicitanții de brevet le-au depus împreună cu brevetul și am vrut să le citesc. Am crezut că merită să le împărtășesc și altora. Nu pentru a dovedi un anumit punct sau pentru a lua o anumită poziție sau o opinie, ci pentru a oferi oricui dorește să-și petreacă timpul citirii materialului pentru a arunca o privire la cele mai recente lucrări și cercetări care implică soluționarea entităților. Am citit câteva dintre acestea și voi citi mai multe. Unele dintre aceste lucrări sunt în colaborare cu cercetătorii de la Google. Dacă găsiți ceva care vă surprinde, vă rugăm să împărtășiți asta în comentarii. Parcurgerea unei înțelegeri a entităților din interogări are foarte mult sens, deoarece acel proces poate pune acele interogări în context. Având o idee despre modul în care Google ar putea procesa o interogare, poate oferi câteva idei care depășesc scorurile de regăsire a informațiilor și scorurile PageRank pentru pagini. Cum se adaptează Google pentru context, pentru prezența entităților într-o interogare?
De exemplu, Newcastle se poate referi la Newcastle upon Tyne, Marea Britanie, la clubul de fotbal (fotbal) Newcastle United sau la băutura Newcastle Brown Ale. Contextul poate ajuta la dezambiguizarea textului de referință. De exemplu, dacă textul de referință include contextul „John joacă pentru Newcastle”, mențiunea este cel mai probabil clubul de fotbal, în timp ce „John s-a născut în Newcastle” cel mai probabil se referă la locație etc.
Știm că Google încerca să înțeleagă mai bine contextul în dezvoltarea cuvintelor cheie, așa cum am scris în Google Patent Context Vectors to Improve Search. Un brevet de la Google despre înțelegerea mai bună a contextului Entităților poate adăuga sens paginilor și ceea ce știe un motor de căutare despre ele. Accentul acestui nou brevet este pe construirea de modele care pot ajuta la înțelegerea interogărilor folosind rezoluția de entități:
Modelele prezic probabilitatea unui eveniment, având în vedere observațiile. Algoritmii de învățare automată pot fi utilizați pentru a antrena parametrii modelului. De exemplu, modelul poate stoca un set de caracteristici și un scor de suport pentru fiecare dintre o multitudine de entități diferite. Scorul de suport reprezintă un scor de probabilitate pe care modelul l-a învățat, o probabilitate ca caracteristica să apară dată fiind entitatea. Modelele utilizate în rezoluția entităților s-au bazat pe trei componente: un model de mențiune, un model de context și un model de coerență. Modelul menționat reprezintă credința anterioară că o anumită frază se referă la o anumită entitate din graficul de date. Modelul de context deduce entitatea cea mai probabilă pentru o mențiune dat fiind contextul textual al mențiunii. Într-un model de context, fiecare caracteristică poate reprezenta o expresie care face parte din contextul pentru mențiunea entității. De exemplu, expresia „președinte” poate avea un scor de sprijin (sau un scor de probabilitate) pentru entitățile „Barack Obama”, „Bill Clinton”, „Nicolas Sarkozy” și multe altele. În mod similar, expresia „joacă pentru” poate avea un scor de suport pentru diferite trupe, echipe etc. Contextul discutat mai sus poate fi reprezentat de un set de caracteristici sau expresii, care apar concomitent cu (de exemplu, apar în jurul) textului de referință , sau mențiune de entitate. Modelul de coerență încearcă să forțeze toate expresiile de referință dintr-un document pentru a rezolva entitățile care sunt legate între ele în graficul de date. Dar un model de coerență introduce dependențe între rezoluțiile tuturor mențiunilor dintr-un document și necesită ca relațiile de entități relevante din graficul de date să fie disponibile la momentul inferenței, crescând costurile de inferență și de acces la model.
Brevetul de rezoluție a entității este:
Model de context aditiv pentru rezolvarea entităților
Inventatori: Amarnag Subramanya, Michael Ringgaard și Fernando Carlos das Neves Pereira
Cesionar: Google
Brevet SUA: 9.697.475
Acordat: 4 iulie 2017
Depus: 23 decembrie 2013
Abstract:
Sunt dezvăluite sisteme și metode pentru utilizarea unui model de context aditiv pentru dezambiguizarea entității. Un exemplu de metodă poate include primirea unui interval de text dintr-un document și a unui vector de expresie pentru interval. Vectorul expresiei poate avea mai multe caracteristici și reprezintă un context pentru interval. Metoda include, de asemenea, determinarea numărului de entități candidate dintr-o bază de cunoștințe care a fost menționată de interval. Pentru fiecare dintre numărul de entități candidate, metoda poate include determinarea unui scor de suport pentru entitatea candidată pentru fiecare caracteristică din vectorul de expresie, combinarea scorurilor de suport în mod aditiv și calcularea unei probabilități ca intervalul să se rezolve la entitatea candidată, dat fiind contextul. . Metoda poate include, de asemenea, rezolvarea intervalului la o entitate candidată cu cea mai mare probabilitate.
Referințe pentru solicitant
Când am văzut toate lucrările la care se face referire în acest brevet, am vrut să le citesc pe toate și să partajez link-uri către ele. Acestea sunt lucrări selectate de lideri din industria căutării, iar a avea linkuri către ele oferă o modalitate de a explora unele dintre ele. cele mai recente cercetări privind rezoluția entităților. Voi trece prin acestea în săptămânile următoare. Îl privesc ca pe o oportunitate de a învăța din unele dintre cele mai bune surse disponibile. Dacă ceva iese în evidență despre oricare dintre aceste lucrări, aș dori să aud părerile tale despre ele.
Chu, et al, „Map-Reduce for Machine Learning on Multicore“, În NIPS, 2006, pp. 281-288. citat de reclamant.
Friedman, et al, „Regresia logistică aditivă: o viziune statistică asupra impulsionării”, lucrare specială invitată, The Annals of Statistics, voi. 28, nr. 2, 2000, p. 337-407. citat de reclamant.
„Ambiverse: AIDA: Accurate Online Disambiguation of Named Entities in Text and Tables“, Max Planck Institut Informatik, disponibil online la http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/r - esearch/yago-naga/aida/, 2013, 4 pagini. citat de reclamant.

Baluja și colab., „Video Suggestion and Discovery for YouTube: Taking Random Walks Through the View Graph“, Conferința internațională pe World Wide Web (WWW 2008), 21-25 aprilie 2008, 10 pagini. citat de reclamant.
Bollacker et al., „Freebase: A Collaboratively Created Graph Database for Structuring Human Knowledge“, Proceedings of the ACM SIGMOD International Conference on Management of Data, 9-12 iunie 2008, pp. 1247-1249. citat de reclamant.
Bunescu et al., „Using Encyclopedic Knowledge for Named Entity Disambiguation“, Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics, aprilie 2006, pp. 9-16. citat de reclamant.
Cucerzan, Silviu, „Large-Scale Named Entity Disambiguation Based on Wikipedia Data“, Proceedings of Joint Conference on Empirical Methods în ze et al.,
„Entity Disambiguation for Knowledge Base Population“, Proceedings of the 23rd International Conference on Computational Linguistics, august 2010, pp. 277-285. citat de reclamant.
Duchi și colab., „Învățare eficientă online și în serie folosind împărțirea înainte-înapoi“, Journal of Machine Learning Research, voi. 10, 2009, p. 2899-2934. citat de reclamant.
Ferragina et al., „TAGME: On-the-fly Annotation of Short Text Fragments (by Wikipedia Entities)“, Proceedings of the 19th ACM International Conference on Information and Knowledge Management, 26-30 octombrie 2010, pp. 1625- 1628. citat de reclamant.
Finin și colab., „Using Wikitology for Cross-Document Entity Coreference Resolution“, Association for the Advancement of Artificial Intelligence, 2009, pp. 29-35. citat de reclamant.
Finkel și colab., „Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling“, Proceedings of the 43rd Annual Meeting of the ACL, iunie 2005, 363-370. citat de reclamant.
Gabrilovich și colab., „Utilizarea experienței a 70.000 de editori umani: generarea de caracteristici bazate pe cunoștințe pentru clasificarea textului”, Journal of Machine Learning Research, voi. 8, 2007, p. 2297-2345. citat de reclamant.
Hachey și colab., „Evaluarea legăturii entităților cu Wikipedia”, Artificial Intelligence, voi. 194, 2013, p. 130-150. citat de reclamant.
Haghighi et al., „Simple Coreference Resolution with Rich Syntactic and Semantic Features“, Proceedings of Conference on Empirical Methods in Natural Language Processing, 6-7 august 2009, pp. 1152-1161. citat de reclamant.
Han et al., „A Generative Entity-Mention Model for Linking Entities with Knowledge Base“, Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies–vol. 1, 19-24 iunie 2011, p. 945-954. citat de reclamant.
Han et al., „An Entity-Topic Model for Entity Linking“, Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 12-14 iulie 2012, pp. 105-115. citat de reclamant.
Han și colab., „Named Entity Disambiguation by Leveraging Wikipedia Semantic Knowledge“, Proceedings of the 18th ACM Conference on Information and Knowledge Management, 2-6 noiembrie 2009, pp. 215-224. citat de reclamant.
Hoffart et al., „Robust Disambiguation of Named Entities in Text“, Proceedings of Conference on Empirical Methods in Natural Language Processing, 27-31 iulie 2011, pp. 782-792. citat de reclamant.
Kulkarni et al., „Adnotarea colectivă a entităților Wikipedia în text web“, Proceedings of the 15th ACM International Conference on Knowledge Discovery and Data Mining, 28 iunie-iul. 1, 2009, p. 457-466. citat de reclamant.
Kwiatkowski et al., „Generalizarea lexicală în inducția gramatică CCG pentru analiza semantică“, Proceedings of Conference on Empirical Methods in Natural Language Processing, 27-31 iulie 2011, pp. 1512-1523. citat de reclamant.
Lin și colab., „Legarea entităților la scară web“, Proc. a Atelierului comun privind construcția automată a bazei de cunoștințe și extracția de cunoștințe la scară web, 7-8 iunie 2012, pp. 84-88. citat de reclamant.
Mayfield și colab., „Cross-Document Coreference Resolution: A Key Technology for Learning by Reading“, Simpozion de primăvară privind învățarea prin citire și învățarea să citească, martie 2009, 6 pagini. citat de reclamant.
Mihalcea și colab., „Wikify! Linking Documents to Encyclopedic Knowledge“, Proceedings of the 16th ACM Conference on Information and Knowledge Management, 6-8 noiembrie 2007, pp. 233-241. citat de reclamant.
Milne et al., „Learning to Link with Wikipedia“, Proceedings of the 17th ACM Conference on Information and Knowledge Management, 26-30 octombrie 2008, pp. 509-518. citat de reclamant.
Nigam și colab., „Clasificarea textului din documentele etichetate și neetichetate folosind EM”, Machine Learning, voi. 39, 2000, p. 103-134. citat de reclamant.
Orr et al., „Learning from Big Data: 40 Million Entities in Context“, disponibil online <https://research.googleblog.com/2013/03/learning-from-big-data-40-million.html >, 8 martie 2013, 6 pagini. citat de reclamant.
Ratinov et al., „Local and Global Algorithms for Disambiguation to Wikipedia“, Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, 19-24 iunie 2011, pp. 1375-1384. citat de reclamant.
Sil et al., „Legarea entităților denumite la orice bază de date“, Proceedings of Joint Conference on Empirical Methods in Natural Language Processing and Computational Natural Language Learning, 12-14 iulie 2012, pp. 116-127. citat de reclamant.
Subramanya și colab., „Învățare semi-supervizată cu propagare cu măsură”, Journal of Machine Learning Research, voi. 12, 2011, p. 3311-3370. citat de reclamant.
Talukdar și colab., „Experimente în metodele de învățare semi-supervizate bazate pe grafice pentru achiziția de instanțe de clasă“, Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, 11-16 iulie 2010, pp. 1473-1481. citat de reclamant.
Talukdar și colab., „New Regularized Algorithms for Transductive Learning“, Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases: Part II, 2009, pp. 442-457. citat de reclamant.
Talukdar și colab., „Achiziția slab supravegheată a instanțelor de clasă etichetate folosind Graph Random Walks“, Proceedings of Conference on Empirical Methods in Natural Language Processing, octombrie 2008, pp. 582-590. citat de reclamant.
Brevetul descrie un proces de dezambiguizare a entităților, dar mi s-a părut că posibilitatea de a parcurge resursele din brevet era valoroasă și că merită să mă concentrez asupra acestui aspect al brevetului, deoarece am aflat mai multe despre cum se descurcă. rezoluție de entitate. Voi trece prin ele. Acesta poate părea un exercițiu academic, dar rezoluția entităților face acum parte din modul în care Google gestionează interogările și despre care merită să știți ceva. Când Google vede „New Castle” într-o interogare, ar trebui să știe dacă se face referire la bere, echipa sau locația.
Cum ai arăta asta unui motor de căutare?
