Come Google può interpretare una query ambigua utilizzando un'interpretazione semantica

Pubblicato: 2019-08-15

Query ambigue e interpretazioni semantiche

Quando qualcuno fa una domanda ambigua a Google, come risponde a quella domanda? Può iniziare cercando di capire l'intento dietro la query. Loro per interpretare cosa avrebbe potuto significare la persona che ha inserito quella domanda ambigua e trovare le parole giuste. Potrebbe trattarsi di un modulo di query canonico, utilizzato per cercare di scoprire una risposta che potrebbe soddisfare un ricercatore. Questo è stato il secondo brevetto che ho visto di recente che utilizzava la stessa query di esempio, "Quanto dura Harry Potter?"

Ho citato questo esempio su Twitter e ho ricevuto molti pensieri su come si potrebbe rispondere:

Di recente ho scritto un post su In che modo Google risponderebbe alle domande vaghe nelle query? che usava anche quella query di esempio. A Google è stato concesso un brevetto che copre alcuni degli stessi territori in un brevetto che è stato concesso una settimana dopo e fornisce una risposta più ricca e dettagliata.

Il brevetto di cui sto scrivendo con questo post riguarda specificamente la valutazione di diverse interpretazioni semantiche di una query di ricerca. Ecco i passaggi che potrebbero essere necessari per fornire una risposta a una domanda ambigua come "Quanto dura Harry Potter:"

  1. Una tecnica includerebbe la determinazione di una o più interpretazioni semantiche della particolare query di ricerca. Ognuna di queste interpretazioni semantiche è associata ad almeno una query canonica. Per ogni interpretazione semantica, viene generata una query di ricerca modificata basata sulla query di ricerca originale e sulla query canonica associata
  2. I risultati della ricerca vengono quindi ottenuti per la particolare query di ricerca e le query di ricerca modificate
  3. I risultati della ricerca di ciascuna query di ricerca modificata e i risultati della ricerca della query di ricerca originale vengono confrontati per valutare l'interpretazione semantica associata a ciascuna query di ricerca modificata
  4. Ad esempio, ogni interpretazione semantica può essere classificata o convalidata
  5. È possibile confrontare diverse interpretazioni semantiche per la query ambigua originale e in base al confronto è possibile selezionare un'interpretazione semantica per la query di ricerca originale.

diverse versioni di una query ambigua possono essere confrontate tra loro

Per ottenere versioni diverse che possono essere riscritte, viene eseguita una ricerca sulla query originale.

Questi possono essere esaminati per vedere se è possibile determinare un'interpretazione semantica, che rappresenta un intento candidato ad esso associato.

Il grado di somiglianza tra i risultati potrebbe essere confrontato

Questo brevetto rivolto a domande ambigue può essere trovato su:

Valutazione delle interpretazioni semantiche di una query di ricerca
Inventori: Ashish Venugopal, Jakob D. Uszkoreit, John Blitzer e Edward Everett Anderson
Assegnatario: Google LLC
Brevetto USA: 10.353.964
Concesso: 16 luglio 2019
Archiviato: 11 marzo 2015

Astratto

La presente divulgazione riguarda la valutazione di diverse interpretazioni semantiche di una query di ricerca. Un metodo di esempio include l'ottenimento di una serie di risultati di ricerca per una particolare query di ricerca inviata a un motore di ricerca; ottenere una serie di interpretazioni semantiche per la particolare query di ricerca; ottenere, per ogni interpretazione semantica dell'insieme, una query di ricerca canonica; generare una query di ricerca modificata basata almeno in parte sulla particolare query di ricerca e sulla query di ricerca canonica per l'interpretazione semantica; ottenere un insieme di risultati di ricerca per la query di ricerca modificata per l'interpretazione semantica; e determinare, per ciascuna interpretazione semantica dell'insieme, un grado di somiglianza tra (i) l'insieme dei risultati della ricerca della query di ricerca modificata per l'interpretazione semantica, e (ii) l'insieme dei risultati della ricerca per la particolare query di ricerca.

Identificare l'intento dietro una domanda ambigua

Ci viene detto che "Per migliorare la qualità dei risultati di ricerca, il motore di ricerca può interpretare le query di ricerca ricevute per discernere un probabile intento associato a ciascuna query". Ciò significa che cosa probabilmente cerca un ricercatore quando digita qualcosa come "Quanto tempo dura Harry Potter?" in una casella di ricerca.

Difficoltà nel determinare l'intento con query ambigue

Un altro esempio che è stato incluso anche nel brevetto che ho scritto riguardo a domande vaghe è menzionato anche in questo brevetto:

Ad esempio, una query che recita "Età di Washington" potrebbe fare riferimento, ad esempio, al presidente George Washington, all'attore Denzel Washington, allo stato di Washington o a Washington DC. Determinare l'intento dell'utente associato a tali domande ambigue può essere difficile.

Risultati di query ambigui per l'età di Washington

Google ha deciso che molto probabilmente sono interessato a George Washington.

Il brevetto ci dice che si tratta di fornire "tecniche per valutare diverse interpretazioni di una particolare query di ricerca".

interpretazioni semantiche di una query ambigua

diagramma di flusso del brevetto della query ambigua

Il processo alla base di questo brevetto inizia con un'interpretazione semantica associata ad almeno una query canonica.

1. Per ciascuna di queste interpretazioni semantiche, viene generata una query di ricerca modificata basata sulla query di ricerca originale e sulla query canonica associata.

Nella query di esempio "quanto dura harry potter" i termini "harry potter" sono ambigui e possono riferirsi a uno o più argomenti particolari come:

  • Uno dei sette libri della serie di Harry Potter
  • Qualsiasi adattamento cinematografico dei libri
  • Una corsa
  • Parco a tema
  • Audiolibro
  • cartone animato
  • Eccetera.

Quella domanda potrebbe anche riferirsi al personaggio di Harry Potter stesso.

A seconda dell'argomento a cui un ricercatore intendeva fare riferimento nella query, può essere applicata un'interpretazione diversa o anche diverse interpretazioni.

  • Libro: un ricercatore probabilmente vuole conoscere il numero di parole o pagine del libro
  • Film: una ricerca probabilmente vuole conoscere la durata del film
  • Il personaggio immaginario: il Cercatore potrebbe voler conoscere la sua altezza

Domanda ambigua originale: quanto dura Harry Potter?
Interpretazione semantica: quanto dura il libro Harry Potter?
Interpretazione semantica: quanto dura il film Harry Potter?
Interpretazione semantica: quanto è alto il personaggio di Harry Potter?
Interpretazione semantica: quanti anni ha il personaggio di Harry Potter?

2. I risultati della ricerca vengono quindi ottenuti per ciascuna delle query di ricerca ambigua originale e per le query di ricerca modificate (l'interpretazione).
3. I risultati della ricerca di ciascuna query di ricerca modificata ei risultati della ricerca della query di ricerca originale vengono confrontati per valutare l'interpretazione semantica associata a ciascuna query di ricerca modificata.
4. Ad esempio, ogni interpretazione semantica può essere classificata o convalidata. In questo modo è possibile confrontare tra loro diverse interpretazioni semantiche per la query di ricerca originale. In alcuni casi, è possibile selezionare un'interpretazione semantica per la query di ricerca originale in base al confronto.

Vantaggi di seguire il processo dal brevetto

1. Utilizzando i risultati della ricerca per valutare le diverse interpretazioni semantiche, è possibile esaminare altre fonti di dati come:

  • Dati click-through
  • Dati specifici dell'utente
  • altri che vengono utilizzati quando si producono i risultati della ricerca

2. Valutando diverse interpretazioni semantiche per una query, è possibile prevedere un intento dell'utente per la query, riducendo così l'effetto di qualsiasi ambiguità nella query sulla qualità dei risultati di ricerca identificati.

3. Punteggio di confidenza determinato per ciascuna delle interpretazioni semantiche, che rappresenta "una probabilità che l'interpretazione associata corrisponda all'intento dell'utente per la particolare query".

È inoltre possibile definire una soglia di confidenza per indicare un punteggio di confidenza minimo necessario affinché un'interpretazione semantica venga presa in considerazione quando si restituiscono i risultati della ricerca all'utente. Poiché Google è interessato a restituire risultati di alta qualità agli utenti, anche quando possono digitare una query che può sembrare ambigua in una casella di ricerca e una risposta che sembra ragionevole non è male. Il brevetto ci dice che questo punteggio di confidenza può essere fissato a una soglia alta:

Ad esempio, la soglia di confidenza può specificare che l'interpretazione semantica con punteggi di confidenza superiori a 90 per una particolare query di ricerca deve essere presa in considerazione quando si restituiscono i risultati della ricerca.

Il punteggio di confidenza per le interpretazioni semantiche può essere utilizzato per decidere quale delle interpretazioni semantiche può essere abbinata a una particolare query. Ad esempio, "quanto è lungo Harry Patter" può essere segnato per dirci che la versione che chiede quanto tempo uno dei libri di Harry Potter era in Pages, o quanto tempo avrebbe potuto essere uno dei film di Harry Potter, piuttosto che quanto alto o quanti anni aveva Harry Potter in uno di quei libri.

Query canoniche e query ambigue

Questa è la seconda volta che ricordo di aver visto un documento di Google fare riferimento a query canoniche. La prima volta è stata nel documento Biperpedia: An Ontology for Search Applications, dove sembra che ci dicesse che potrebbe salvare il formato in cui ha visto termini di query diversi nei log delle query (insieme a errori di ortografia comuni). Le domande canoniche menzionate in questo brevetto sono leggermente diverse. Mi è piaciuta questa interpretazione di cosa sia una query canonica:

La query canonica può essere una query che trasmette l'intento dell'utente associato a una particolare interpretazione semantica

Potrebbe essere una "struttura o modello utilizzato per generare una query di ricerca modificata dalla particolare query originale" e potrebbe anche essere "combinata con le informazioni nella particolare query per generare la query di ricerca modificata"

Ci vengono forniti alcuni esempi di query canoniche utilizzate per fornire query modificate nel brevetto:

Ad esempio, la query canonica potrebbe essere una query incompleta come "di quante pagine è il libro? .”

Dato quel modello dalla query canonica, vediamo come potrebbe essere generata una query modificata:

Una query di ricerca modificata può essere generata dalla query canonica utilizzando le parti della query particolare. Ad esempio, data la precedente query canonica e la particolare query "quanto tempo è harry potter", può essere generata la query di ricerca modificata "quante pagine è il libro di harry potter".

Una modifica può comportare la riscrittura della query originale in modo che corrisponda a una query canonica:

Ad esempio, una determinata query "quanto è lungo il libro di harry potter" potrebbe essere riformattata in "quanto è lungo il libro di harry potter" in modo che corrisponda a una query canonica "quanto è lungo il libro .”

Entità e riscrittura di una query ambigua

In alcune implementazioni, la generazione di una query di ricerca modificata per un'interpretazione semantica include la sostituzione di una sottostringa inclusa nella particolare query di ricerca che identifica una particolare entità con una sottostringa alternativa che identifica la particolare entità inclusa nella query di ricerca canonica per l'interpretazione semantica.

Ad esempio, la particolare query "quanto è lungo harry potter" può avere un'interpretazione semantica di chiedere il numero di pagine in un libro.

L'inclusione di un'entità in una query sembra essere un modo per garantire maggiore certezza a una query. Il brevetto ci dice che l'utilizzo di un'entità dalla query originale è sicuramente parte di questo processo:

Una query canonica associata a questa interpretazione semantica potrebbe essere "quanto tempo è il? libro."

Pertanto, con "harry potter" identificato come una particolare entità, potrebbe essere generata una query di ricerca modificata sostituendo la sottostringa "harry potter" nella particolare query di ricerca con la sottostringa "harry potter book" derivata dalla query di ricerca canonica.

Utilizzo della somiglianza per decidere se una query modificata si adatta bene a una query ambigua

La somiglianza utilizzata per prendere questa decisione potrebbe essere basata sul confronto dei risultati della ricerca per la query ambigua e la query modificata per vedere:

1. La frequenza di occorrenza di particolari parole chiave associate alla particolare query di ricerca nei risultati della query di ricerca modificati e la frequenza all'interno dei risultati di ricerca per la particolare query di ricerca.

2. Il grado di somiglianza si basa sul confronto di un ordine dei risultati della query di ricerca modificati con un ordine dei risultati della ricerca per la particolare query di ricerca.

3. Altri dati potrebbero essere considerati come

  • Tasso di clic dell'utente
  • Dati sul traffico del sito
  • Altri dati

Asporto

Google può fornire risposte diverse a una domanda ambigua come "quanto dura Harry Potter?" per vedere quali risultati le persone tendono a favorire rispetto ad altri. Sembra che le decisioni di mostrare alcuni risultati rispetto ad altri potrebbero essere basate su una valutazione iniziale delle query modificate e su un punteggio di confidenza associato a quelle. Ma quando qualcuno fa una query di tipo "Quanto è lungo Harry Potter", è più probabile che chieda la lunghezza di un film o quante pagine potrebbero esserci in uno dei libri di Harry Potter, piuttosto che quanto è alto Harry Potter. Potter ha o quanti anni ha Harry Potter.

Possiamo vedere come Google tenta di comprendere l'intento dietro una query ambigua. È possibile che Google tenti anche di capire l'intento dietro query che potremmo non percepire come ambigue, come una ricerca di "Pizza" intorno all'ora di pranzo. Google sembra capire che è una query per un luogo vicino per trovare una fetta, piuttosto che una storia di Pizza.

Domanda ambigua per Pizza

Puoi interpretarlo come un intento di pranzare da parte mia con un alto grado di fiducia.