Scoruri ale entităților înrudite în căutările bazate pe cunoștințe

Publicat: 2018-02-12

„Motorul de căutare perfect ar înțelege exact ce vrei să spui și ți-ar returna exact ce anume
tu vrei." Larry Page, Cum funcționează căutarea

Utilizarea bazelor de cunoștințe pentru a răspunde la întrebări despre entități

În urmă cu trei ani, am scris Cum pot fi utilizate entitățile din baza de cunoștințe în căutări despre cum puteți căuta folosind o interogare precum: „Care este filmul în care Robert Duvall joacă un personaj care spune cât de mult îi place mirosul de napalm dimineața .” Căutarea unui film în care un actor binecunoscut spune că o replică binecunoscută este un exemplu de utilizare de către Google a faptelor pe care le poate afla din bazele de cunoștințe, astfel încât să poată răspunde la întrebări. Nu răspunde cu un fragment recomandat. În schimb, arată câteva videoclipuri urmate de alte documente care răspund, de asemenea, la această întrebare.

Un brevet acordat Google luna trecută analizează, de asemenea, informații dintr-un grafic de cunoștințe pe care poate să le fi învățat din bazele de cunoștințe pentru a răspunde la întrebări. Nu ca fragmente prezentate, ci mai degrabă rezultate de căutare care învață despre entitățile dintr-o interogare și proprietățile asociate. Aceasta este o căutare semantică care depășește înțelegerea sinonimelor și a cuvintelor legate semantic, până la cunoașterea unor proprietăți despre lucrurile implicate într-o căutare (rețineți că Google Knowledge Graph este despre „Lucruri și nu șiruri de caractere”, așa că depășește doar potrivirea cuvintelor cheie de la o interogare la aceleași (sau înrudite) cuvinte cheie dintr-un document.Se introduce și conceptul de scoruri ale entităților aferente.

Knowledge Graph colectează informații despre entitate pentru a răspunde la întrebări

Da, graficul de cunoștințe este ca o enciclopedie, dar nu de aceea există. Încearcă să învețe despre entități, astfel încât să poată ajuta să răspundă la întrebări despre acestea, în rezultatele căutării

Acest nou brevet ne spune cum poate folosi informații despre anumite entități pentru a răspunde la întrebări:

în unele implementări, o metodă implementată pe calculator cuprinde identificarea într-un grafic de cunoștințe, folosind cel puțin un procesor, a cel puțin o entitate și entități înrudite legate de acea cel puțin o entitate prin proprietățile respective. Metoda implementată pe calculator cuprinde, pentru fiecare dintre entitățile afiliate, determinarea, folosind cel puțin un procesor, a unui scor de entitate afiliată asociat unei proprietăți respective care leagă cea puțin o entitate și respectiva dintre entitățile afiliate. Metoda implementată pe calculator cuprinde, pentru fiecare proprietate respectivă, generarea unui scor de proprietate, folosind cel puţin un procesor, pe baza scorurilor de entităţi asociate respectivei proprietăţi. Metoda implementată de calculator cuprinde generarea, folosind cel puţin un procesor, şi determinarea stocării unei structuri de date cu proprietăţi sortabile pe baza scorurilor de proprietate generate, în care structura de date este utilizată pentru a furniza rezultate de căutare sortate ca răspuns la o interogare.

Dacă întrebați Google o întrebare de genul „Unde a fost geodez George Washington?” motorul de căutare oferă rezultate ale căutării care detaliază unde a acționat ca un adolescent inspector înainte de a intra în armată.

Un oraș numit Washington Virginia (care se autointitulează primul Washington) comemorează tânărul de 17 ani care a cercetat zona înconjurătoare în timpul lui mai tânăr.

Scoruri de entitate conexe

Cum funcționează procesul acestui brevet? Iată cum funcționează graficul de cunoștințe pentru a ajuta la returnarea rezultatelor căutării, folosind scorurile de entități aferente:

În unele implementări, un sistem cuprinde o structură de date care cuprinde un grafic de cunoștințe și unul sau mai multe procesoare. Unul sau mai multe procesoare sunt configurate pentru a efectua operaţii cuprinzând identificarea în graficul de cunoaştere a cel puţin unei entităţi şi entităţi aferente aferente celei cel puţin o entitate prin proprietăţile respective. Unul sau mai multe procesoare sunt configurate să efectueze operațiuni cuprinzând, pentru fiecare dintre entitățile afiliate, determinarea unui scor de entitate asociată cu o proprietate respectivă care leagă cea puțin o entitate și respectiva dintre entitățile afiliate. Unul sau mai multe procesoare sunt configurate să efectueze operaţii cuprinzând, pentru fiecare proprietate respectivă, generarea unui scor de proprietate pe baza scorurilor de entităţi asociate cu respectiva proprietate. Unul sau mai multe procesoare sunt configurate pentru a efectua operațiuni care cuprind generarea și stocarea unei structuri de date cu proprietăți sortabile pe baza scorurilor de proprietate generate, în care structura de date este utilizată pentru a furniza rezultate de căutare sortate ca răspuns la o interogare.

Brevetul nou acordat este

Furnizarea rezultatelor căutării pe baza proprietăților sortate
Inventatorii: Yiming Li și Zhenyu Gu
Cesionar: Google LLC
Brevetul Statelor Unite 9.875.320
Acordat: 23 ianuarie 2018
Depus: 8 februarie 2016

Abstract

O entitate poate fi legată de mai multe entități afiliate prin una sau mai multe proprietăți, iar entitatea poate fi, de asemenea, asociată cu unul sau mai multe tipuri de entități. Un sistem pentru furnizarea de rezultate sortate poate include identificarea entității, a entităților aferente și a tipurilor. Sistemul poate determina, de asemenea, scorurile entităților aferente pentru fiecare entitate afiliată respectivă, raportate la entitate. Pentru fiecare proprietate, scorurile de entitate aferente entităților afiliate legate de entitatea de către proprietatea respectivă sunt combinate pentru a genera un scor de proprietate. Proprietățile sunt apoi sortate în funcție de scorurile lor de proprietate. Sortarea poate avea loc pentru proprietăți asociate cu un tip de entitate, iar rezultatele de căutare sortate pot fi furnizate ca ieșire pentru unul sau mai multe tipuri de entitate de interes.

Rezultatele căutării și fragmentele recomandate

Am văzut răspunsuri la unele întrebări care oferă o combinație de rezultate ale căutării și fragmente prezentate, așa cum am scris în postarea Google Going to Marry their Knowledge Base with Search Engine? Google nu a manifestat o preferință prea mare pentru a răspunde la o interogare cu un rezultat al căutării sau cu un fragment special sau cu un fragment structurat.

Uneori, un răspuns la o întrebare despre un film poate părea a fi foarte potrivit. Îmi place când am o întrebare despre geografie, cum ar fi care este capitala XXXX? arată o hartă într-un fragment prezentat, deoarece locația unei capitale poate fi informații utile.

Nu există baze de cunoștințe specifice despre modul în care Google folosește graficul de cunoștințe pentru a răspunde la întrebări despre entități

Nu există încă baze de cunoștințe care să ne spună cum folosește Google un grafic de cunoștințe. Cele mai apropiate pe care le avem sunt brevetele ca acesta, care conține o cantitate considerabilă de informații. Această secțiune a fost bogată în concepte și indicii despre modul în care Google ar putea trata informațiile despre proprietăți:

O anumită entitate poate fi asociată cu mai multe tipuri și poate fi, de asemenea, legată de mai multe alte entități prin una sau mai multe proprietăți. Așa cum este folosit aici, o entitate este un lucru sau concept care este singular, unic, bine definit și care se poate distinge. De exemplu, o entitate poate fi o persoană, loc, articol, idee, subiect, concept abstract, element concret, alt lucru potrivit sau orice combinație a acestora. În unele implementări, rezultatele căutării includ rezultate în identificarea referințelor de entități. Așa cum este utilizată aici, o referință la entitate este un identificator, de exemplu, text sau alte informații care se referă la o entitate. De exemplu, o entitate poate fi întruchiparea fizică a lui George Washington, în timp ce o referință la entitate este un concept abstract care se referă la George Washington. Acolo unde este cazul, pe baza contextului, se va înțelege că termenul entitate așa cum este utilizat aici poate corespunde unei referințe la entitate, iar termenul referință la entitate așa cum este utilizat aici poate corespunde unei entități. În unele implementări, sistemul de căutare poate identifica un tip de entitate asociat cu o referință de entitate. Tipul de entitate poate fi o clasificare sau o clasificare utilizată pentru a identifica referințele de entitate în structura datelor. De exemplu, referința la entitate „George Washington” poate fi asociată cu tipurile de entități „Președinte SUA”, „Persoană” și „Ofițer militar”. Proprietățile descriu relațiile dintre entități, cu alte cuvinte, modul în care o entitate este legată de o altă entitate. Cele mai importante proprietăți asociate unei entități pot depinde de tipurile sale de interes. De exemplu, pentru entitatea „Tom Hanks”, un utilizator poate dori ca rezultatele căutării să includă filmele sale sau alte informații despre actoria sa. Cu toate acestea, pentru entitatea „Albert Einstein”, utilizatorii ar putea dori ca rezultatele căutării să includă teoriile sale, lucrările tehnice și alte informații legate de contribuțiile sale la fizică. Tehnicile dezvăluite pot fi utilizate pentru a determina atributele importante și, în consecință, pentru a furniza rezultate de căutare pe care utilizatorul le dorește probabil.

Doriți să aflați mai multe informații despre cum poate fi utilizată o bază de cunoștințe într-o căutare semantică? Poate merită să citiți acest brevet. Rețineți că Google consideră că multe site-uri sunt baze de cunoștințe utile care depășesc Wikipedia și Wikidata. Poate privi surse precum IMDB și Yahoo Finance ca informații utile despre fapte.

Pentru a ilustra acest brevet, am decis să-l arăt pe George Washington ca geodez. Nu mulți oameni știu că a făcut asta în adolescență! De asemenea, este posibil ca această poziție să fi jucat un rol semnificativ în funcțiile pe care le-a ocupat mai târziu, ca comandant militar și politician. Următorul pasaj din brevet despre tipurile de entități și înțelegerea informațiilor dintr-un grafic a influențat ilustrația mea de alegere:

Un nod care reprezintă date organizaționale poate fi inclus într-un grafic de cunoștințe. Acestea pot fi denumite aici noduri de tip entitate. Aşa cum este utilizat aici, un nod de tip de entitate se poate referi la un nod dintr-un grafic de cunoaştere, în timp ce un tip de entitate se poate referi la conceptul reprezentat de un nod de tip de entitate. Un tip de entitate poate fi o caracteristică definitorie a unei entități. De exemplu, nodul de tip entitate Y poate fi conectat la un nod de entitate X printr-o margine sau o legătură „Este A”, discutată mai jos, astfel încât graficul să reprezinte informația „Entitatea X este de tip Y”. De exemplu, nodul de entitate „George Washington” poate fi conectat la nodul de tip de entitate „Președinte”. Un nod de entitate poate fi conectat la mai multe noduri de tip de entitate, de exemplu, „George Washington” poate fi, de asemenea, conectat la nodul de tip de entitate „Persoană” și la nodul de tip de entitate „Comandant militar”.

Recomand să citiți acest brevet și să încercați să îl înțelegeți. S-ar putea să vă ajute să raportați modul în care un motor de căutare poate capta și returna interogări despre proprietăți și diferitele aspecte ale acestora. Aceasta este o căutare mult mai semantică, luând în considerare informații despre lucruri și modul în care acestea ar putea fi legate între ele. Nu este vorba despre potrivirea șirurilor de text de la interogări la documente. Mai degrabă, concentrându-se pe cunoașterea entităților, a tipurilor lor, a proprietăților lor și a cât de legate pot fi acestea cu alte entități.

Mi-ar plăcea să văd un film despre un tânăr din Washington care studiază dealurile din Virginia. Am întrebat pe Google, „există un film despre George Washington ca geodez?” Se pare că un film animat a început prin a acoperi acele zile: generalul George Washington

Vom folosi scoruri ale entităților asociate și scoruri ale proprietății atunci când creăm conținut în viitor?

Scorurile entităților conexe și scorurile proprietății vor fi lucruri importante de luat în considerare în viitor? Brevetul oferă indicii despre modul în care motoarele de căutare le pot folosi astfel:

Etapa 606 include unul sau mai multe procesoare care generează un scor de proprietate pentru fiecare proprietate pe baza scorurilor de entitate asociate cu proprietatea. Scorurile de entitate asociate cu fiecare proprietate particulară pot fi combinate pentru acea proprietate. De exemplu, făcând referire la FIG. 4, scorurile entităților afiliate pentru entitățile afiliate „Forrest Gump”, „Big” și „Salvarea soldatului Ryan” pot fi însumate pentru a da o sumă pentru proprietatea „Filme în care au jucat”, de exemplu, 0,8+0,8+0,8=2,4. Într-un alt exemplu, scorurile entităților aferente pot fi combinate ca o sumă ponderată. Orice combinație adecvată de scoruri de entități asociate poate fi utilizată pentru a genera scorul de proprietate. În unele implementări, unul sau mai multe tipuri pot fi un subtip al unui alt tip de entitate. De exemplu, referirea la structura de date 550 din FIG. 5, tipul „Actor” poate fi un subtip al tipului de entitate „Persoană”, care poate fi denumit tip părinte în raport cu subtipul. În unele astfel de implementări, pentru tipul părinte, scorul proprietății pentru fiecare proprietate a fiecărui subtip poate fi însumat cu aceeași proprietate a tipului părinte. De exemplu, referirea la structura de date 550 din FIG. 5, proprietatea „Filme jucate în” este inclusă în tipul „Actor” și „Persoană” și, în consecință, scorul de proprietate de 9,0 pentru tipul de entitate „Actor” poate fi agregat la scorul de proprietate 1,0 pentru tipul de entitate „Persoană”. ” Unul sau mai multe procesoare pot renormaliza, scala, pondera sau modifica în alt mod scorurile din tipul părinte după încorporarea subtipului.

Ar putea avea un pic mai mult sens după ce ai citit asta. Google își folosește graficul de cunoștințe pentru a răspunde la interogări de căutare cu rezultate de căutare de cel puțin 3 ani. Și ei devin din ce în ce mai sofisticați în privința asta. Este probabil să continue să evolueze pe măsură ce Google încearcă lucruri noi și experimentează mai mult modul în care afișează rezultatele căutării.