Punteggi delle entità correlate nelle ricerche basate sulla conoscenza

Pubblicato: 2018-02-12

"Il motore di ricerca perfetto capirebbe esattamente cosa intendi e ti restituirebbe esattamente cosa
tu vuoi." Larry Page, come funziona la ricerca

Utilizzo delle basi di conoscenza per rispondere alle domande sulle entità

Tre anni fa, ho scritto Come utilizzare le entità della base di conoscenza nelle ricerche su come eseguire ricerche utilizzando una query del tipo "Qual è il film in cui Robert Duvall interpreta un personaggio che dice quanto ama l'odore del napalm al mattino? .” La ricerca di un film in cui un noto attore afferma che una battuta ben nota è un esempio di Google che utilizza fatti che può apprendere dalle basi di conoscenza in modo da poter rispondere alle domande. Non risponde con uno snippet in primo piano. Invece, mostra un paio di video seguiti da altri documenti che rispondono anche a questa domanda.

Un brevetto concesso a Google il mese scorso esamina anche le informazioni da un grafico della conoscenza che potrebbe aver appreso dalle basi di conoscenza per rispondere alle domande. Non come snippet in primo piano, ma piuttosto risultati di ricerca che apprendono le entità in una query e le proprietà correlate. Questa è una ricerca semantica che va oltre la comprensione di sinonimi e parole semanticamente correlate, per conoscere alcune proprietà sulle cose coinvolte in una ricerca (ricorda, il Knowledge Graph di Google riguarda "Cose e non stringhe", quindi va oltre la semplice corrispondenza di parole chiave da una query alle stesse parole chiave (o correlate) su un documento.Introduce anche il concetto di punteggi di entità correlate.

Il Knowledge Graph raccoglie informazioni sull'entità per rispondere alle domande

Sì, il grafico della conoscenza è come un'enciclopedia, ma non è per questo che esiste. Cerca di conoscere le entità, in modo che possa aiutare a rispondere alle domande su di esse, nei risultati di ricerca

Questo nuovo brevetto ci dice come può utilizzare le informazioni su entità specifiche per rispondere alle domande:

In alcune implementazioni, un metodo implementato da computer comprende identificare in un grafo della conoscenza, utilizzando almeno un processore, almeno un'entità e entità correlate correlate all'almeno un'entità da rispettive proprietà. Il metodo implementato da elaboratore comprende, per ciascuna rispettiva delle entità correlate, determinare, utilizzando almeno un processore, un punteggio di entità correlato associato a una rispettiva proprietà che mette in relazione l'almeno un'entità e la rispettiva delle entità correlate. Il metodo implementato da computer comprende, per ciascuna rispettiva proprietà, generare un punteggio di proprietà, utilizzando almeno un processore, basato su punteggi di entità correlati associati a quella rispettiva proprietà. Il metodo implementato da computer comprende la generazione, l'utilizzo di almeno un processore e la memorizzazione di una struttura di dati di proprietà ordinabili in base ai punteggi di proprietà generati, in cui la struttura di dati viene utilizzata per fornire risultati di ricerca ordinati in risposta a una query.

Se poni a Google una domanda come "Dov'era George Washington un geometra?" il motore di ricerca fornisce risultati di ricerca che dettagliano dove ha agito come geometra adolescente prima di entrare nell'esercito.

Una città chiamata Washington Virginia (che si definisce la prima Washington) commemora il diciassettenne che sorvegliò l'area circostante durante i suoi giorni più giovani.

Punteggi delle entità correlate

Come funziona il processo di questo brevetto? Ecco come funziona il grafico della conoscenza per aiutare a restituire i risultati di ricerca, utilizzando i punteggi delle entità correlate:

In alcune implementazioni, un sistema comprende una struttura dati comprendente un grafo della conoscenza e uno o più processori. L'uno o più processori sono configurati per eseguire operazioni comprendenti l'identificazione nel grafo della conoscenza almeno un'entità e relative entità legate all'almeno un'entità da rispettive proprietà. Gli uno o più processori sono configurati per eseguire operazioni comprendenti, per ciascuna rispettiva delle entità correlate, determinare un punteggio di entità correlate associato a una rispettiva proprietà che riguarda l'almeno un'entità e la rispettiva delle entità correlate. L'uno o più processori sono configurati per eseguire operazioni comprendenti, per ciascuna rispettiva proprietà, generare un punteggio di proprietà basato su punteggi di entità correlati associati a quella rispettiva proprietà. L'uno o più processori sono configurati per eseguire operazioni comprendenti la generazione e la memorizzazione di una struttura di dati di proprietà ordinabili in base ai punteggi di proprietà generati, in cui la struttura di dati viene utilizzata per fornire risultati di ricerca ordinati in risposta a una query.

Il brevetto appena concesso è

Fornire risultati di ricerca basati su proprietà ordinate
Inventori: Yiming Li e Zhenyu Gu
Assegnatario: Google LLC
Brevetto degli Stati Uniti 9.875.320
Concesso: 23 gennaio 2018
Archiviato: 8 febbraio 2016

Astratto

Un'entità può essere correlata a più entità correlate da una o più proprietà e l'entità può anche essere associata a uno o più tipi di entità. Un sistema per fornire risultati ordinati può includere l'identificazione dell'entità, delle entità correlate e dei tipi. Il sistema può anche determinare i punteggi delle entità correlate per ciascuna rispettiva entità correlata, in relazione all'entità. Per ogni proprietà, i punteggi delle entità correlate delle entità correlate all'entità da quella proprietà vengono combinati per generare un punteggio della proprietà. Le proprietà vengono quindi ordinate in base ai punteggi delle proprietà. L'ordinamento può verificarsi per le proprietà associate a un tipo di entità e i risultati della ricerca ordinati possono essere forniti come output per uno o più tipi di entità di interesse.

Risultati della ricerca e frammenti in primo piano

Abbiamo visto le risposte ad alcune domande che forniscono una combinazione di risultati di ricerca e snippet in primo piano come ho scritto nel post Google sta per sposare la loro Knowledge Base con il loro motore di ricerca? Google non ha mostrato troppa preferenza per rispondere a una query con un risultato di ricerca o uno snippet in primo piano o uno snippet strutturato.

A volte una risposta a una domanda su un film può sembrare molto appropriata. Mi piace quando una domanda sulla geografia, ad esempio qual è la capitale di XXXX? mostra una mappa in uno snippet in primo piano, perché la posizione di una capitale può essere un'informazione utile.

Nessuna base di conoscenza specifica su come Google utilizza il suo Knowledge Graph per rispondere alle domande sulle entità

Non ci sono ancora basi di conoscenza che ci dicano come Google utilizza un grafico della conoscenza. Il più vicino che abbiamo sono brevetti come questo, che contiene una notevole quantità di informazioni. Questa sezione era ricca di concetti e suggerimenti su come Google potrebbe trattare le informazioni sulle proprietà:

Una particolare entità può essere associata a diversi tipi e può anche essere correlata a più altre entità da una o più proprietà. Come qui utilizzato, un'entità è una cosa o un concetto che è singolare, unico, ben definito e distinguibile. Ad esempio, un'entità può essere una persona, un luogo, un oggetto, un'idea, un argomento, un concetto astratto, un elemento concreto, un'altra cosa adatta o una combinazione di questi. In alcune implementazioni, i risultati della ricerca includono risultati nell'identificazione dei riferimenti alle entità. Come qui utilizzato, un riferimento a un'entità è un identificatore, ad esempio testo o altre informazioni che si riferiscono a un'entità. Ad esempio, un'entità può essere l'incarnazione fisica di George Washington, mentre un riferimento a un'entità è un concetto astratto che si riferisce a George Washington. Laddove appropriato, in base al contesto, si comprenderà che il termine entità come qui utilizzato può corrispondere a un riferimento a un'entità e il termine riferimento a un'entità come qui utilizzato può corrispondere a un'entità. In alcune implementazioni, il sistema di ricerca può identificare un tipo di entità associato a un riferimento di entità. Il tipo di entità può essere una categorizzazione o classificazione utilizzata per identificare i riferimenti all'entità nella struttura dei dati. Ad esempio, il riferimento dell'entità "George Washington" può essere associato ai tipi di entità "Presidente degli Stati Uniti", "Persona" e "Ufficiale militare". Le proprietà descrivono le relazioni tra entità, in altre parole, come un'entità è correlata a un'altra entità. Le proprietà più importanti associate a un'entità possono dipendere da quale dei suoi tipi è di interesse. Ad esempio, per l'entità "Tom Hanks", un utente potrebbe volere che i risultati di ricerca includano i suoi film o altre informazioni sulla sua recitazione. Tuttavia, per l'entità "Albert Einstein", gli utenti potrebbero volere che i risultati della ricerca includano le sue teorie, documenti tecnici e altre informazioni relative ai suoi contributi alla fisica. Le tecniche divulgate possono essere utilizzate per determinare gli attributi importanti e, di conseguenza, fornire risultati di ricerca che l'utente probabilmente desidera.

Vuoi saperne di più su come una base di conoscenza può essere utilizzata in una ricerca semantica? Potrebbe valere la pena leggere questo brevetto. Tieni presente che Google considera molti siti come utili basi di conoscenza che vanno oltre Wikipedia e Wikidata. Potrebbe considerare fonti come IMDB e Yahoo Finance come informazioni utili sui fatti.

Per illustrare questo brevetto, ho deciso di mostrare George Washington come geometra. Non molte persone sanno che lo ha fatto da adolescente! È anche possibile che questa posizione abbia avuto un ruolo significativo nelle posizioni che ha ricoperto in seguito come comandante militare e politico. Il seguente passaggio del brevetto sui tipi di entità e sulla comprensione delle informazioni all'interno di un grafico ha influenzato la mia illustrazione della scelta:

Un nodo che rappresenta i dati organizzativi può essere incluso in un grafico della conoscenza. Questi possono essere qui indicati come nodi di tipo entità. Come qui utilizzato, un nodo di tipo entità può fare riferimento a un nodo in un grafo della conoscenza, mentre un tipo di entità può fare riferimento al concetto rappresentato da un nodo di tipo entità. Un tipo di entità può essere una caratteristica che definisce un'entità. Ad esempio, il nodo di tipo entità Y può essere connesso a un nodo di entità X da un bordo o collegamento "È A", discusso più avanti, in modo tale che il grafico rappresenti l'informazione "L'entità X è di tipo Y". Ad esempio, il nodo di entità "George Washington" può essere connesso al nodo di tipo di entità "Presidente". Un nodo di entità può essere connesso a più nodi di tipo entità, ad esempio "George Washington" può anche essere connesso al nodo di tipo entità "Persona" e al nodo di tipo entità "Comandante militare".

Consiglio di leggere questo brevetto e cercare di capirlo. Potrebbe essere utile mettere in relazione il modo in cui un motore di ricerca potrebbe acquisire e restituire query sulle proprietà e sui loro diversi aspetti. Questa è una ricerca molto più basata sulla semantica, che considera le informazioni sulle cose e su come potrebbero essere correlate l'una all'altra. Non si tratta di far corrispondere stringhe di testo da query a documenti. Piuttosto, concentrandosi sulla conoscenza delle entità, dei loro tipi, delle loro proprietà e di quanto possano essere correlate ad altre entità.

Mi piacerebbe vedere un film su un giovane Washington che osserva le colline della Virginia. Ho chiesto su Google "c'è un film su George Washington come geometra?" Sembra che un film d'animazione sia iniziato coprendo quei giorni: il generale George Washington

Utilizzeremo punteggi di entità correlate e punteggi di proprietà quando creeremo contenuti in futuro?

I punteggi delle entità correlate e delle proprietà saranno aspetti importanti da considerare in futuro? Il brevetto fornisce suggerimenti su come i motori di ricerca potrebbero usarli in questo modo:

Il passaggio 606 include uno o più processori che generano un punteggio di proprietà per ciascuna proprietà in base ai punteggi di entità correlati associati alla proprietà. I punteggi delle entità correlate associate a ogni particolare proprietà possono essere combinati per quella proprietà. Ad esempio, facendo riferimento alla FIG. 4, i punteggi delle entità correlate per le entità correlate "Forrest Gump", "Big" e "Salvate il soldato Ryan" possono essere sommati per fornire una somma per la proprietà "Film in cui sono stati recitati", ad esempio, 0,8+0,8+0,8=2,4. In un ulteriore esempio, i punteggi delle entità correlate possono essere combinati come una somma ponderata. È possibile utilizzare qualsiasi combinazione adatta di punteggi di entità correlate per generare il punteggio di proprietà. In alcune implementazioni, uno o più tipi possono essere un sottotipo di un altro tipo di entità. Ad esempio, facendo riferimento alla struttura di dati 550 di FIG. 5, il tipo "Attore" può essere un sottotipo del tipo di entità "Persona", che può essere indicato come un tipo genitore rispetto al sottotipo. In alcune di queste implementazioni, per il tipo padre, il punteggio della proprietà per ogni proprietà di ogni sottotipo può essere sommato con la stessa proprietà del tipo padre. Ad esempio, facendo riferimento alla struttura di dati 550 di FIG. 5, la proprietà "Film agiti in" è inclusa nel tipo "Attore" e "Persona" e, di conseguenza, il punteggio della proprietà di 9,0 per il tipo di entità "Attore" può essere aggregato al punteggio della proprietà 1,0 per il tipo di entità "Persona". " Uno o più processori possono rinormalizzare, ridimensionare, pesare o alterare in altro modo i punteggi all'interno del tipo genitore dopo aver incorporato il sottotipo.

Potrebbe avere un po' più senso dopo aver letto questo. Google utilizza il grafico della conoscenza per rispondere alle query di ricerca con i risultati di ricerca da almeno 3 anni. Stanno diventando anche più sofisticati al riguardo. È probabile che continui a evolversi man mano che Google prova nuove cose e sperimenta di più con il modo in cui visualizza i risultati di ricerca.