Come Google elabora le query: risorse per la risoluzione delle entità
Pubblicato: 2017-07-18Google esegue la risoluzione delle entità per comprendere le entità che vede nelle query
Il Web è pieno di entità: informazioni su persone, luoghi e cose. Un motore di ricerca può raccogliere informazioni sulle connessioni tra entità. Nella presentazione, How Google Works, Paul Haahr di Google ci ha detto che Google cercherà di identificare le entità che appaiono nelle query. La sua presentazione implica molto di più della semplice scansione del Web e dell'individuazione della presenza di collegamenti nelle pagine, ed è consigliabile guardarla.
Un brevetto concesso a Google il 4 luglio si concentra sulla presenza di entità nelle query e sulla loro comprensione. Si concentra su qualcosa chiamato risoluzione dell'entità o su cosa potrebbe rappresentare un'entità in una query. Quando ho guardato il brevetto, sono rimasto colpito dal numero di referenze che i richiedenti il brevetto hanno depositato insieme al brevetto, e ho voluto leggerle. Ho pensato che valesse la pena condividerli anche con gli altri. Non per dimostrare un punto particolare o per prendere una posizione o opinione particolare, ma per dare a chiunque voglia dedicare del tempo alla lettura del materiale per dare un'occhiata agli ultimi documenti e ricerche che coinvolgono la risoluzione dell'ente. Ne ho letti alcuni e ne leggerò altri. Alcuni di questi documenti sono co-autori di ricercatori di Google. Se trovi qualcosa che ti sorprende, condividilo nei commenti. Passare attraverso la comprensione delle entità nelle query ha molto senso, poiché quel processo può mettere quelle query nel contesto. Avere un'idea di come Google potrebbe elaborare una query può fornire alcune idee che vanno oltre i punteggi di recupero delle informazioni e i punteggi di PageRank per le pagine. In che modo Google si adegua al contesto, alla presenza di entità in una query?
Ad esempio, Newcastle può riferirsi a Newcastle upon Tyne, Regno Unito, al club di calcio (calcio) Newcastle United o alla bevanda Newcastle Brown Ale. Il contesto può aiutare a disambiguare il testo di riferimento. Ad esempio, se il testo di riferimento include il contesto di "John gioca per Newcastle", la menzione è molto probabilmente la squadra di calcio, mentre "John è nato a Newcastle" molto probabilmente si riferisce al luogo, ecc.
Sappiamo che Google stava cercando di comprendere meglio il contesto nello sviluppo di parole chiave, come ho scritto in Google Patents Context Vector to Improve Search. Un brevetto di Google sulla comprensione migliore del contesto delle entità può aggiungere significato alle pagine e ciò che un motore di ricerca sa su di esse. L'obiettivo di questo nuovo brevetto è la creazione di modelli che possono aiutare a comprendere le query utilizzando la risoluzione delle entità:
I modelli prevedono la probabilità di alcuni eventi date le osservazioni. Gli algoritmi di apprendimento automatico possono essere utilizzati per addestrare i parametri del modello. Ad esempio, il modello può memorizzare un insieme di caratteristiche e un punteggio di supporto per ciascuna di una pluralità di entità diverse. Il punteggio di supporto rappresenta un punteggio di probabilità che il modello ha appreso, una probabilità che la funzionalità si verifichi data l'entità. I modelli utilizzati nella risoluzione delle entità si sono basati su tre componenti: un modello di menzione, un modello di contesto e un modello di coerenza. Il modello menzionato rappresenta la convinzione precedente che una particolare frase si riferisca a una particolare entità nel grafico dei dati. Il modello di contesto deduce l'entità più probabile per una menzione dato il contesto testuale della menzione. In un modello di contesto, ogni caratteristica può rappresentare una frase che fa parte del contesto per la menzione dell'entità. Ad esempio, la frase "presidente" può avere un punteggio di supporto (o un punteggio di probabilità) per le entità di "Barack Obama", "Bill Clinton", "Nicolas Sarkozy" e molti altri. Allo stesso modo, la frase "gioca per" può avere un punteggio di supporto per vari gruppi, squadre, ecc. Il contesto discusso sopra può essere rappresentato da un insieme di caratteristiche, o frasi, che si verificano insieme (ad esempio, che si verificano intorno) al testo di riferimento o menzione di entità. Il modello di coerenza tenta di forzare tutte le espressioni di riferimento in un documento per risolvere le entità che sono correlate tra loro nel grafico dei dati. Ma un modello di coerenza introduce dipendenze tra le risoluzioni di tutte le citazioni in un documento e richiede che le relazioni di entità rilevanti nel grafico dei dati siano disponibili al momento dell'inferenza, aumentando l'inferenza e i costi di accesso al modello.
Il brevetto di risoluzione dell'entità è:
Modello di contesto additivo per la risoluzione delle entità
Inventori: Amarnag Subramanya, Michael Ringgaard e Fernando Carlos das Neves Pereira
Assegnatario: Google
Brevetto USA: 9.697.475
Concesso: 4 luglio 2017
Archiviato: 23 dicembre 2013
Astratto:
Vengono descritti sistemi e metodi per utilizzare un modello di contesto additivo per la disambiguazione delle entità. Un metodo di esempio può includere la ricezione di un intervallo di testo da un documento e un vettore di frase per l'intervallo. La frase vettore può avere diverse caratteristiche e rappresentare un contesto per lo span. Il metodo include anche la determinazione del numero di entità candidate da una base di conoscenza a cui si è fatto riferimento nell'intervallo. Per ciascuna del numero di entità candidate, il metodo può includere la determinazione di un punteggio di supporto per l'entità candidata per ciascuna caratteristica nel vettore di frase, la combinazione additiva dei punteggi di supporto e il calcolo di una probabilità che l'intervallo si risolva nell'entità candidata dato il contesto . Il metodo può anche includere la risoluzione dell'intervallo su un'entità candidata con una probabilità più elevata.
Referenze del richiedente
Quando ho visto tutti i documenti a cui si fa riferimento in questo brevetto, ho voluto leggerli tutti e condividere i link. le ultime ricerche sulla risoluzione delle entità. Li esaminerò nelle prossime settimane. Lo considero un'opportunità per imparare da alcune delle migliori fonti disponibili. Se c'è qualcosa che risalta su uno di questi documenti, vorrei sentire cosa ne pensi.
Chu, et al, "Map-Reduce for Machine Learning on Multicore", In NIPS, 2006, pp. 281-288. citato dal ricorrente.
Friedman, et al, "Additive Logistic Regression: A Statistical View of Boosting", Special Invited Paper, The Annals of Statistics, vol. 28, n. 2, 2000, pp. 337-407. citato dal ricorrente.
"Ambiverse: AIDA: Accurate Online Disambiguation of Named Entities in Text and Tables", Max Planck Institut Informatik, disponibile online all'indirizzo http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/r - esearch/yago-naga/aida/, 2013, 4 pagine. citato dal ricorrente.
Baluja et al., "Video Suggestion and Discovery for YouTube: Taking Random Walks Through the View Graph", Conferenza internazionale sul World Wide Web (WWW 2008), 21-25 aprile 2008, 10 pagine. citato dal ricorrente.
Bollacker et al., "Freebase: un database grafico creato in collaborazione per strutturare la conoscenza umana", Atti della conferenza internazionale ACM SIGMOD sulla gestione dei dati, 9-12 giugno 2008, pp. 1247-1249. citato dal ricorrente.

Bunescu et al., "Using Encyclopedic Knowledge for Named Entity Disambiguation", Atti dell'11° Conferenza del Capitolo europeo dell'Associazione per la linguistica computazionale, aprile 2006, pp. 9-16. citato dal ricorrente.
Cucerzan, Silviu, "Disambiguazione delle entità nominate su larga scala basata sui dati di Wikipedia", Atti della conferenza congiunta sui metodi empirici in ze et al.,
"Disambiguazione delle entità per la popolazione della base di conoscenza", Atti della 23a Conferenza internazionale sulla linguistica computazionale, agosto 2010, pp. 277-285. citato dal ricorrente.
Duchi et al., "Apprendimento efficiente in linea e in batch utilizzando la suddivisione avanti-indietro", Journal of Machine Learning Research, vol. 10, 2009, pp. 2899-2934. citato dal ricorrente.
Ferragina et al., "TAGME: On-the-fly Annotation of Short Text Fragments (by Wikipedia Entities)", Atti della 19a Conferenza internazionale ACM sulla gestione delle informazioni e della conoscenza, 26-30 ottobre 2010, pp. 1625- 1628. citato dal ricorrente.
Finin et al., "Using Wikitology for Cross-Document Entity Coreference Resolution", Association for the Advancement of Artificial Intelligence, 2009, pp. 29-35. citato dal ricorrente.
Finkel et al., "Incorporazione di informazioni non locali nei sistemi di estrazione delle informazioni di Gibbs Sampling", Atti della 43a riunione annuale dell'ACL, giugno 2005, 363-370. citato dal ricorrente.
Gabrilovich et al., "Sfruttare l'esperienza di 70.000 redattori umani: generazione di funzionalità basata sulla conoscenza per la categorizzazione del testo", Journal of Machine Learning Research, vol. 8, 2007, pp. 2297-2345. citato dal ricorrente.
Hachey et al., "Evaluating Entity Linking with Wikipedia", Intelligenza artificiale, vol. 194, 2013, pp. 130-150. citato dal ricorrente.
Haghighi et al., "Simple Coreference Resolution with Rich Syntactic and Semantic Features", Atti della conferenza sui metodi empirici nell'elaborazione del linguaggio naturale, 6-7 agosto 2009, pp. 1152-1161. citato dal ricorrente.
Han et al., "A Generative Entity-Mention Model for Linking Entities with Knowledge Base", Atti della 49a riunione annuale dell'Associazione per la linguistica computazionale: Tecnologie del linguaggio umano-vol. 1, 19-24 giugno 2011, pp. 945-954. citato dal ricorrente.
Han et al., "An Entity-Topic Model for Entity Linking", Atti della conferenza congiunta 2012 sui metodi empirici nell'elaborazione del linguaggio naturale e nell'apprendimento computazionale del linguaggio naturale, 12-14 luglio 2012, pp. 105-115. citato dal ricorrente.
Han et al., "Disambiguazione delle entità nominate sfruttando la conoscenza semantica di Wikipedia", Atti della 18a conferenza ACM sulla gestione delle informazioni e della conoscenza, 2-6 novembre 2009, pp. 215-224. citato dal ricorrente.
Hoffart et al., "Robust Disambigua of Named Entities in Text", Atti della conferenza sui metodi empirici nell'elaborazione del linguaggio naturale, 27-31 luglio 2011, pp. 782-792. citato dal ricorrente.
Kulkarni et al., "Annotazione collettiva delle entità di Wikipedia nel testo Web", Atti della 15a Conferenza internazionale ACM sulla scoperta della conoscenza e l'estrazione di dati, 28 giugno-luglio. 1, 2009, pp. 457-466. citato dal ricorrente.
Kwiatkowski et al., "Generalizzazione lessicale nell'induzione della grammatica CCG per l'analisi semantica", Atti della conferenza sui metodi empirici nell'elaborazione del linguaggio naturale, 27-31 luglio 2011, pp. 1512-1523. citato dal ricorrente.
Lin et al., "Collegamento di entità su scala Web", Proc. del Joint Workshop on Automatic Knowledge Base Construction & Web-scale Knowledge Extraction, 7-8 giugno 2012, pp. 84-88. citato dal ricorrente.
Mayfield et al., "Cross-Document Coreference Resolution: A Key Technology for Learning by Reading", Simposio primaverile sull'apprendimento tramite la lettura e l'apprendimento per leggere, marzo 2009, 6 pagine. citato dal ricorrente.
Mihalcea et al., “Wikify! Linking Documents to Encyclopedic Knowledge“, Atti della 16a Conferenza ACM sulla gestione dell'informazione e della conoscenza, 6-8 novembre 2007, pp. 233-241. citato dal ricorrente.
Milne et al., "Learning to Link with Wikipedia", Atti della 17a Conferenza ACM sulla gestione delle informazioni e della conoscenza, 26-30 ottobre 2008, pp. 509-518. citato dal ricorrente.
Nigam et al., "Classificazione del testo da documenti etichettati e non etichettati utilizzando EM", Machine Learning, vol. 39, 2000, pp. 103-134. citato dal ricorrente.
Orr et al., "Learning from Big Data: 40 Million Entities in Context", disponibile online <https://research.googleblog.com/2013/03/learning-from-big-data-40-million.html >, 8 marzo 2013, 6 pagine. citato dal ricorrente.
Ratinov et al., "Algoritmi locali e globali per la disambiguazione su Wikipedia", Atti del 49° incontro annuale dell'Associazione per la linguistica computazionale, 19-24 giugno 2011, pp. 1375-1384. citato dal ricorrente.
Sil et al., "Collegamento di entità nominate a qualsiasi database", Atti della conferenza congiunta sui metodi empirici nell'elaborazione del linguaggio naturale e nell'apprendimento computazionale del linguaggio naturale, 12-14 luglio 2012, pp. 116-127. citato dal ricorrente.
Subramanya et al., "Apprendimento semi-supervisionato con propagazione della misura", Journal of Machine Learning Research, vol. 12, 2011, pp. 3311-3370. citato dal ricorrente.
Talukdar et al., "Esperimenti in metodi di apprendimento semi-supervisionati basati su grafici per l'acquisizione di istanze di classe", Atti della 48a riunione annuale dell'Associazione per la linguistica computazionale, 11-16 luglio 2010, pp. 1473-1481. citato dal ricorrente.
Talukdar et al., "Nuovi algoritmi regolarizzati per l'apprendimento trasduttivo", Atti della Conferenza europea sull'apprendimento automatico e la scoperta della conoscenza nei database: parte II, 2009, pp. 442-457. citato dal ricorrente.
Talukdar et al., "Acquisizione debolmente supervisionata di istanze di classi etichettate utilizzando Graph Random Walks", Atti della conferenza sui metodi empirici nell'elaborazione del linguaggio naturale, ottobre 2008, pp. 582-590. citato dal ricorrente.
Il brevetto descrive un processo per disambiguare le entità, ma mi è sembrato che essere in grado di esaminare le risorse nel brevetto fosse prezioso e che valesse la pena concentrarsi su quell'aspetto del brevetto, poiché ho imparato di più su come stavano facendo risoluzione dell'ente. Li passerò. Può sembrare un esercizio accademico, ma la risoluzione delle entità ora fa parte del modo in cui Google gestisce le query e vale la pena sapere qualcosa. Quando Google vede "New Castle" in una query, dovrebbe sapere se si fa riferimento alla birra, al team o al luogo.
Come lo mostreresti a un motore di ricerca?
