Classifiche di ricerca Brevetto del modello basato su grandi set di dati aggiornato

Pubblicato: 2018-08-22

Modello delle classifiche di ricerca e set di dati di grandi dimensioni

Seguendo un aspetto coerente con i principi dell'invenzione, viene fornito un metodo per classificare i documenti. Il metodo può includere la creazione di un modello di classificazione della ricerca che predice la probabilità che un documento venga selezionato e l'addestramento del modello di classificazione utilizzando un set di dati che include decine di milioni di istanze.

Nel 2011, ho scritto di un brevetto che era stato concesso a Google nel 2007, sulla creazione di un modello di ranking di ricerca che utilizza una grande quantità di dati, su query, documenti sul Web e ricercatori. Il post in cui ho scritto a riguardo era Google e Large Scale Data Models Like Panda, e la versione del brevetto di cui ho scritto all'epoca era Classificare i documenti in base a set di dati di grandi dimensioni.

Quel brevetto del modello di Search Rankings è stato aggiornato, attraverso l'uso di un brevetto di continuazione, per la terza volta. I due precedenti brevetti di continuazione non sono stati concessi, ma quest'ultimo lo è stato, e può essere trovato al link sotto questo paragrafo. La descrizione sembra essere la stessa della versione originale che è stata depositata nel 2003. Le affermazioni sono state ampiamente riscritte e vale la pena esaminarle perché le nuove catturano lo sforzo che è stato fatto per questo brevetto. La versione più recente del brevetto sulle classifiche di ricerca è disponibile all'indirizzo:

Classificazione dei documenti in base a insiemi di dati di grandi dimensioni
Inventori: Jeremy Bem, Georges R. Harik, Joshua L. Levenberg, Noam M. Shazeer e Simon Tong
Assegnatario: Google LLC
Brevetto USA: 10.055.461
Concesso: 21 agosto 2018
Archiviato: 31 luglio 2015

Astratto

Un sistema classifica i documenti in base, almeno in parte, a un modello di classificazione. Il modello di classificazione può essere generato per prevedere la probabilità che un documento venga selezionato. Il sistema può ricevere una query di ricerca e identificare i documenti relativi alla query di ricerca. Il sistema può quindi classificare i documenti in base, almeno in parte, al modello di classificazione e formare i risultati della ricerca per la query di ricerca dai documenti classificati.

Reclami aggiornati nel brevetto del modello delle classifiche di ricerca

Vale la pena confrontare le affermazioni della prima versione di questo brevetto sulle classifiche di ricerca con l'ultima, per avere un'idea di quanto è cambiato. Anche leggere il post che ho scritto sulla prima versione in precedenza può essere utile per capire di cosa si tratta. Sto includendo copie della prima affermazione di ciascuno qui perché presentano un bel contrasto in ciò a cui si applicano i brevetti.

Nella versione originale del brevetto, la prima rivendicazione è molto più breve e non è affatto dettagliata. Ci parla di:

1. Metodo implementato da computer, comprendente: la creazione di un modello di classificazione che predice una probabilità che un documento venga selezionato mediante: memorizzazione di informazioni associate a una pluralità di ricerche precedenti, determinazione di una probabilità di selezione a priori basata, almeno in parte, su le informazioni associate alle ricerche precedenti e generando il modello di ranking basato, almeno in parte, sulla probabilità a priori di selezione; addestrare il modello di classificazione utilizzando un set di dati che include circa decine di milioni di istanze; identificazione di documenti relativi ad una query di ricerca; punteggio dei documenti basato, almeno in parte, sul modello di graduatoria; formare risultati di ricerca per la query di ricerca dai documenti valutati; e l'output dei risultati della ricerca.

Confronta questa affermazione con questa dell'ultima versione del brevetto del modello di ranking di ricerca, che è molto più dettagliato:

Ciò che viene affermato è:

1. Metodo implementato da computer comprendente: ricevere, da un sistema di ricerca distribuito, una raccolta di dati di addestramento comprendente una pluralità di istanze di addestramento che identificano ciascuna un rispettivo primo documento selezionato da un particolare utente quando il primo documento è stato identificato nei risultati di ricerca forniti dal sistema di ricerca al particolare utente in risposta a una particolare query di ricerca emessa dal particolare utente; partizionare la raccolta di dati di addestramento su una pluralità di dispositivi informatici del sistema di ricerca distribuito; generando, dal sistema di ricerca distribuito, un modello di classificazione che produce una probabilità che un particolare utente selezioni un particolare documento quando identificato da uno o più risultati di ricerca forniti in risposta a una particolare query di ricerca presentata dal particolare utente, inclusa l'elaborazione, da ciascun dispositivo informatico della pluralità di dispositivi informatici, istanze di addestramento assegnate al dispositivo informatico, tra cui: selezione, da parte del dispositivo informatico, di una condizione candidata, in cui la condizione candidata specifica i valori per una o più funzionalità utente, una o più funzionalità di query, e una o più caratteristiche del documento, inviando, tramite il dispositivo informatico, a ogni altro dispositivo informatico della pluralità di dispositivi informatici, una richiesta per calcolare statistiche locali per la condizione candidata, ricevendo, tramite il dispositivo informatico, da ogni altro dispositivo informatico di uno o più altri dispositivi di calcolo, le rispettive statistiche calcolate per la condizione candidata calcolate dall'altro de di calcolo vice utilizzando valori di istanze di addestramento locali assegnate all'altro dispositivo di calcolo, calcolando, dal dispositivo di calcolo, un peso per la condizione candidata secondo le statistiche calcolate ricevute dall'uno o più altri dispositivi di calcolo per la condizione candidata; determinare, mediante il dispositivo informatico, che una nuova regola comprendente la condizione candidata e il peso calcolato deve essere aggiunta al modello di classificazione e, in risposta, aggiungere la nuova regola al modello di classificazione e fornire reciprocamente, mediante il dispositivo informatico dispositivo informatico della pluralità di dispositivi informatici, l'indicazione che la nuova regola comprendente la condizione candidata e il peso calcolato deve essere aggiunta al modello di classificazione; ricevere una query di ricerca inviata da un primo utente; ottenere una pluralità di risultati di ricerca che soddisfano la query di ricerca, in cui ciascun risultato di ricerca identifica un rispettivo documento di una pluralità di documenti; determinare una o più caratteristiche del primo utente e una o più caratteristiche della query di ricerca presentata dal primo utente; utilizzando una o più caratteristiche del primo utente e una o più caratteristiche della query di ricerca come input al modello di ranking per calcolare, per ciascun documento identificato dai risultati della ricerca, una rispettiva probabilità che il primo utente selezioni il documento quando fornito in risposta alla query di ricerca; e classificare la pluralità di risultati di ricerca in base a una rispettiva probabilità calcolata per ciascun documento, la probabilità calcolata per ciascun documento essendo una probabilità che il primo utente selezioni il documento quando fornito in risposta alla query di ricerca.

L'affermazione ci dice che il modello di classificazione della ricerca coinvolge funzionalità sugli utenti, sulle query e sui documenti classificati. Queste sono solo alcune delle caratteristiche identificate nelle nuove rivendicazioni:

  • Una lingua del primo utente
  • Una o più query precedenti emesse dal primo utente
  • Un numero di volte che il primo utente ha avuto accesso a un particolare documento
  • Una lingua della query
  • Uno o più termini della query
  • Uno o più secondi documenti che l'utente specifico non ha selezionato
  • Dati che rappresentano una posizione del primo documento selezionato nell'ordine dei risultati della ricerca forniti in risposta alla particolare query
  • Un numero di documenti classificato al di sopra del primo documento selezionato nei risultati di ricerca forniti al particolare utente in risposta alla particolare query di ricerca
  • Una posizione del primo utente
  • Ci sono alcune altre affermazioni nella versione più recente del brevetto che sono diventate molto più lunghe e che valgono la pena esaminarle e prestare attenzione.

    La prima versione del brevetto ci dice che sta prestando attenzione a molte diverse istanze di dati suddivisi in triple su come differiscono un ricercatore, una query e un documento. Come ho detto nel mio primo post sul brevetto originale:

    Nel primo brevetto di Google, il modello in costruzione esaminava una combinazione di dati degli utenti, le query che utilizzavano e i documenti che potevano o meno selezionare. Ognuna di queste combinazioni viene definita "istanza. Un'istanza è una "tripla" di dati: (u, q, d), dove u sono le informazioni sull'utente, q sono i dati della query dall'utente e d sono le informazioni sul documento relative alle pagine restituite dai dati della query.

    Conclusioni sull'aggiornamento del brevetto del modello delle classifiche di ricerca

    Google ha recentemente avuto un grande aggiornamento di base, come descritto in Google conferma l'aggiornamento dell'algoritmo di base generale: i fatti e i consigli. Sappiamo che Google ha aggiornato i suoi algoritmi di ricerca principali, possibilmente 2 volte al giorno, per un lungo periodo. Non sappiamo quando potrebbero essere stati applicati gli aggiornamenti che si riflettono nella nuova versione di questo brevetto del modello di ranking di ricerca, ma potrebbero essere stati applicati perché come brevetto di continuazione, rifletterebbe idealmente le modifiche al processo alla base del brevetto, che potrebbe essere stato messo in atto sull'algoritmo nel tempo. Se Google stesse utilizzando questo approccio per classificare le pagine, potrebbe essere considerato parte dell'algoritmo di ricerca principale. Questo brevetto prende in considerazione una grande quantità di dati che coinvolgono query e documenti degli utenti per determinare le classifiche di ricerca.