Aggiornato il clustering delle entità nelle SERP di Google

Pubblicato: 2022-01-13

Aggiornato il brevetto delle entità di clustering

entità di raggruppamento

Uno dei miei ultimi post sul blog riguardava Google che raggruppava i risultati delle notizie per argomento nei risultati di ricerca organici. Google ha anche raggruppato le informazioni sulle entità nei risultati di ricerca. Se ora cerchi persone che hanno recitato con Humprey Bogart a Casablanca. Puoi vedere altri attori in quel film in quei risultati di ricerca. Puoi anche vedere domande correlate che includono quegli attori e il film (e quell'ontologia sulle categorie associate per il film). Questo nuovo post riguarda il clustering di entità e una modifica al modo in cui Google fornisce risultati di ricerca relativi al clustering di entità.

Ecco un esempio di risultati di ricerca che mostrano le connessioni tra gli attori e il film Casablanca:

Raggruppamento di entità - Casablanca

Google ha un brevetto di continuazione dal 3 gennaio 2022. Avevo scritto di una versione precedente di quel brevetto nel 2019 nel post Clustering di entità nei risultati di ricerca di Google

Affermazioni dal primo brevetto

Poiché questo nuovo brevetto è un brevetto di continuazione, la maggior parte del brevetto è identica. Il brevetto contiene rivendicazioni aggiornate. La prima affermazione della versione 2019 del brevetto Clustering Search Results recita come segue:

1. Un metodo comprendente: determinare gli elementi che rispondono a una domanda; generare cluster di primo livello degli elementi, ciascun cluster rappresenta un'entità in una base di conoscenza e include elementi mappati all'entità; calcolare un rispettivo punteggio del cluster per ciascun cluster di primo livello, in cui il rispettivo punteggio del cluster per un cluster di primo livello si basa su un rispettivo punteggio di sagoma che misura la coerenza e la separazione del cluster di primo livello e su un rapporto di sagoma che rappresenta una percentuale di tutti i cluster di primo livello aventi un rispettivo punteggio di silhouette al di sopra di una soglia; fusione dei cluster di primo livello in base alle relazioni ontologiche dell'entità e ai rispettivi punteggi dei cluster calcolati per i cluster uniti, in cui il rispettivo punteggio del cluster di un cluster unito rappresenta un punteggio migliore rispetto ai rispettivi punteggi del cluster per i cluster di primo livello inclusi nel cluster unito ; applicare il clustering gerarchico ai cluster uniti, producendo cluster finali che massimizzano i rispettivi punteggi del cluster per il clustering gerarchico; e fornendo gli elementi che rispondono alla query per la visualizzazione in base ai cluster finali.

Reclami dal brevetto aggiornato

Nel dettaglio, il post che ho scritto nel 2019 descrive il processo alla base del brevetto delle entità di clustering. Ora, la nuova versione del brevetto del primo giorno del 2022 ha un nuovo linguaggio che ci dice cosa fa il brevetto. La prima serie di affermazioni nel 1999 ci parlava di un "punteggio silhouette", che non è presente nelle nuove affermazioni. Le affermazioni del 2022 includono alcuni termini che non sono nella versione del 2019:

1. Metodo eseguito da un motore di ricerca comprendente: determinare un insieme di elementi che rispondono a una query; per ogni elemento dell'insieme di elementi determinato per rispondere alla query: identificare una o più entità associate all'elemento e ottenere un incorporamento per l'elemento; generare cluster di primo livello dall'insieme degli elementi, ciascun cluster rappresentando un'entità di una o più entità; produrre cluster finali unendo i cluster di primo livello basati su relazioni ontologiche di entità e incorporando somiglianze determinate utilizzando gli elementi incorporati, in cui le relazioni ontologiche di entità includono ipernimo, sinonimo e co-ipernimo; e fornire elementi dall'insieme di elementi che rispondono alla query per la visualizzazione in base ai cluster finali.

2. Il metodo della rivendicazione 1, in cui i cluster di primo livello che sono più piccoli vengono prima fusi.

3. Il metodo della rivendicazione 2, in cui la fusione dei cluster di primo livello che sono più piccoli include, per un primo cluster di primo livello: determinare un secondo cluster di primo livello e un terzo cluster di primo livello relativo al primo cluster di primo livello in base alle relazioni ontologiche dell'entità ; determinare che il terzo cluster di primo livello e il primo cluster di primo livello sono più piccoli del secondo cluster di primo livello; e la fusione del primo cluster di primo livello con il terzo cluster di primo livello.

4. Il metodo della rivendicazione 1, in cui i cluster di primo livello che sono più simili vengono prima fusi.

5. Il metodo della rivendicazione 4, in cui l'unione di primi cluster che sono i più simili per primi include, per un primo cluster di primo livello: determinare un secondo cluster di primo livello e un terzo cluster di primo livello relativo al primo cluster di primo livello in le relazioni ontologiche dell'entità; determinare che il primo cluster di primo livello è più simile al secondo cluster di primo livello rispetto al terzo cluster di primo livello; e la fusione del primo cluster di primo livello con il secondo cluster di primo livello.

La versione più recente ci dice che include "relazioni ontologiche", che la prima serie di affermazioni non include. Quindi, sappiamo dalle SERP che Bogart era nel film "Casablanca", così come molti altri attori che si sono concentrati su quel risultato di ricerca.

Raggruppamento dei risultati di ricerca
Inventori: Jilin Chen, Dai; Lichan Hong, Tianjiao Zhang, Huazhong Ning e Ed Huai-Hsin Chi
Assegnatario: Google LLC
Brevetto USA: 11.216.503
Concesso: 4 gennaio 2022
Archiviato: 26 novembre 2019

Astratto

Le implementazioni forniscono un sistema migliorato per presentare i risultati della ricerca in base alle associazioni di entità degli elementi di ricerca. Un metodo di esempio include la generazione di cluster di primo livello di elementi che rispondono a una query, ogni cluster rappresenta un'entità in una base di conoscenza e include elementi mappati all'entità, unendo i cluster di primo livello in base alle relazioni dell'ontologia di entità, applicando il clustering gerarchico all'entità cluster uniti, produzione di cluster finali e avvio della visualizzazione degli articoli in base ai cluster finali. Un altro metodo di esempio include la generazione di cluster di primo livello da elementi che rispondono a una query, ogni cluster rappresenta un'entità in una base di conoscenza e include elementi mappati sull'entità, producendo cluster finali unendo i cluster di primo livello basati su un'ontologia di entità e un spazio di incorporamento generato da un modello di incorporamento che utilizza la mappatura e avvio della visualizzazione degli elementi che rispondono alla query in base ai cluster finali.

Se torni al mio resoconto originale di questo brevetto di entità di clustering del 2019, vedrai che menziono "ontologie" molte volte quando scrivo di entità. La versione 2022 del brevetto delle entità di clustering aggiunge quel linguaggio direttamente alle rivendicazioni. Sono nelle SERP senza discutere del rapporto tra il film ei suoi attori.

Raggruppamento di entità e notizie

Dopo questa modifica, quando cerchiamo un'entità e notizie specifiche, vediamo anche i risultati di ricerca raggruppati lì:

Notizie sull'entità di clustering

Quindi Google non ordina più le SERP in base alla qualità dei documenti di corrispondenza per i termini di ricerca: Google sta raggruppando argomenti e relazioni tra entità come parte della sua decisione su cosa includere nei risultati di ricerca.

Cerca notizie direttamente nella tua casella di posta

Questo campo è a scopo di convalida e deve essere lasciato invariato.

*Necessario