Patent de model de clasamente de căutare bazat pe seturi mari de date actualizat
Publicat: 2018-08-22Model de clasamente de căutare și seturi mari de date
Urmând un aspect în concordanță cu principiile invenției, este furnizată o metodă de clasare a documentelor. Metoda poate include crearea unui model de clasare de căutare care prezice probabilitatea ca un document să fie selectat și antrenarea modelului de clasare folosind un set de date care include zeci de milioane de instanțe.
În 2011, am scris despre un brevet care fusese acordat Google în 2007, despre construirea unui model de ierarhizare care folosește o cantitate foarte mare de date, despre interogări, documente de pe Web și căutări. Postarea în care am scris despre asta a fost Google și Modele de date la scară largă, precum Panda, iar versiunea brevetului despre care am scris atunci era Clasificarea documentelor bazate pe seturi mari de date.
Acest brevet de model Search Rankings a fost actualizat, prin utilizarea unui brevet de continuare, pentru a treia oară. Cele două brevete de continuare anterioare nu au fost acordate, dar acesta ultim a fost și poate fi găsit la linkul de mai jos acest paragraf. Descrierea pare să fie aceeași cu cea din versiunea originală care a fost depusă în 2003. Afirmațiile au fost rescrise pe larg și merită să fie analizate, deoarece cele noi surprind cât de mult efort s-a depus în acest brevet. Cea mai nouă versiune a brevetului pentru clasamentele de căutare poate fi găsită la:
Clasificarea documentelor pe baza unor seturi mari de date
Inventatori: Jeremy Bem, Georges R. Harik, Joshua L. Levenberg, Noam M. Shazeer și Simon Tong
Cesionar: Google LLC
Brevet SUA: 10.055.461
Acordat: 21 august 2018
Depus: 31 iulie 2015
Abstract
Un sistem ierarhizează documentele pe baza, cel puțin parțial, pe un model de clasare. Modelul de clasare poate fi generat pentru a prezice probabilitatea ca un document să fie selectat. Sistemul poate primi o interogare de căutare și poate identifica documente referitoare la interogarea de căutare. Sistemul poate clasifica apoi documentele pe baza, cel puțin parțial, pe modelul de clasare și pe formularul de rezultate ale căutării pentru interogarea de căutare din documentele clasate.
Afirmații actualizate în brevetul de model pentru clasamentele de căutare
Merită să comparați revendicările din cea mai veche versiune a acestui brevet pentru clasamentele de căutare cu cea mai recentă, pentru a obține o idee despre cât de mult s-a schimbat. Citirea postării pe care am făcut-o mai devreme despre prima versiune poate fi de asemenea utilă pentru a înțelege ce acoperă. Includ aici copii ale primei revendicări de la fiecare deoarece prezintă un contrast destul de mare în ceea ce se aplică brevetele.
În versiunea originală a brevetului, prima revendicare este mult mai scurtă și nu este deloc la fel de detaliată. Ne vorbește despre:
1. O metodă implementată pe calculator, cuprinzând: crearea unui model de clasare care prezice o probabilitate ca un document să fie selectat prin: stocarea informațiilor asociate cu o multitudine de căutări anterioare, determinarea unei probabilități anterioare de selecție bazată, cel puțin parțial, pe informațiile asociate căutărilor anterioare și generarea modelului de clasare bazat, cel puțin parțial, pe probabilitatea anterioară de selecție; antrenarea modelului de clasare folosind un set de date care include aproximativ zeci de milioane de instanțe; identificarea documentelor referitoare la o interogare de căutare; notarea documentelor pe baza, cel puțin parțial, pe modelul de clasare; formarea rezultatelor căutării pentru interogarea de căutare din documentele punctate; și afișarea rezultatelor căutării.
Comparați această afirmație cu aceasta din cea mai recentă versiune a brevetului de model pentru clasamentele de căutare, care este mult mai detaliată:
Ceea ce se pretinde este:
1. O metodă implementată pe calculator care cuprinde: primirea, printr-un sistem de căutare distribuit, a unei colecții de date de instruire cuprinzând o multitudine de instanțe de instruire care identifică fiecare un prim document respectiv selectat de un anumit utilizator atunci când primul document a fost identificat în rezultatele căutării furnizate de către sistemul de căutare către utilizatorul particular ca răspuns la o anumită interogare de căutare emisă de utilizatorul particular; partiţionarea colecţiei de date de antrenament pe o multitudine de dispozitive de calcul ale sistemului de căutare distribuit; generarea, de către sistemul de căutare distribuită, a unui model de clasare care produce o probabilitate ca un anumit utilizator să selecteze un anumit document atunci când este identificat de unul sau mai multe rezultate de căutare furnizate ca răspuns la o anumită interogare de căutare transmisă de către utilizatorul anume, inclusiv procesarea, prin fiecare dispozitiv de calcul al multitudinii de dispozitive de calcul, instanțe de antrenament atribuite dispozitivului de calcul, inclusiv: selectarea, de către dispozitivul de calcul, a unei condiții candidate, în care condiția candidată specifică valori pentru una sau mai multe caracteristici de utilizator, una sau mai multe caracteristici de interogare, și una sau mai multe caracteristici ale documentului, trimițând, de către dispozitivul de calcul, unul către celălalt dispozitiv de calcul al multitudinii de dispozitive de calcul, o solicitare de calculare a statisticilor locale pentru condiția candidată, primind, de către dispozitivul de calcul, unul de la celălalt dispozitiv de calcul al unuia. sau mai multe alte dispozitive de calcul, statisticile respective calculate pentru condiția candidată calculate de celălalt dispozitiv de calcul vice folosind valori ale instanțelor de antrenament locale atribuite celuilalt dispozitiv de calcul, calculând, de către dispozitivul de calcul, o pondere pentru condiția candidată în conformitate cu statisticile calculate primite de la unul sau mai multe alte dispozitive de calcul pentru condiția candidată; determinând, de către dispozitivul de calcul, că o nouă regulă cuprinzând condiția candidată și ponderea calculată ar trebui adăugată la modelul de clasare și, ca răspuns, adăugarea noii reguli la modelul de clasare și furnizarea, de către dispozitivul de calcul, unul altuia dispozitiv de calcul al multitudinii de dispozitive de calcul, o indicație că noua regulă care cuprinde condiția candidată și greutatea calculată ar trebui adăugată la modelul de clasare; primirea unei interogări de căutare trimisă de un prim utilizator; obţinerea unei multitudini de rezultate de căutare care satisfac interogarea de căutare, în care fiecare rezultat de căutare identifică un document respectiv dintr-o multitudine de documente; determinarea uneia sau mai multor caracteristici ale primului utilizator și una sau mai multe caracteristici ale interogării de căutare transmise de primul utilizator; folosind una sau mai multe caracteristici ale primului utilizator și una sau mai multe caracteristici ale interogării de căutare ca intrare în modelul de clasare pentru a calcula, pentru fiecare document identificat de rezultatele căutării, o probabilitate respectivă ca primul utilizator să selecteze documentul atunci când furnizate ca răspuns la interogarea de căutare; şi ierarhizarea multitudinii de rezultate de căutare pe baza unei probabilităţi calculate respective pentru fiecare document, probabilitatea calculată pentru fiecare document fiind o probabilitate ca primul utilizator să selecteze documentul atunci când este furnizat ca răspuns la interogarea de căutare.
Afirmația ne spune că modelul de clasare de căutare implică caracteristici despre utilizatori, despre interogări și despre documentele clasate. Acestea sunt doar câteva dintre caracteristicile identificate în noile revendicări:
- O limbă a primului utilizator
- Una sau mai multe interogări anterioare emise de primul utilizator
- De câteva ori primul utilizator a accesat un anumit document
- O limbă a interogării
- Unul sau mai mulți termeni ai interogării
- Unul sau mai multe documente secunde pe care utilizatorul nu le-a selectat
- Date reprezentând o poziție a primului document selectat într-o ordine a rezultatelor căutării furnizate ca răspuns la interogarea particulară
- Un număr de documente clasate deasupra primului document selectat în rezultatele căutării furnizate unui anumit utilizator ca răspuns la o anumită interogare de căutare
- O locație a primului utilizator
Există și alte revendicări în versiunea mai nouă a brevetului care au devenit mult mai lungi și care le fac să merite să le examinăm și să le acordăm atenție.
Prima versiune a brevetului ne spune că acordă atenție multor cazuri diferite de date împărțite în triple despre modul în care un căutator și o interogare și un document diferă. După cum am spus în prima mea postare despre brevetul original:
În primul brevet Google, modelul construit a analizat o combinație de date de la utilizatori, interogările pe care aceștia le-au folosit și documentele pe care le-au selectat sau nu. Fiecare dintre aceste combinații este denumită „instanță. O instanță este un „triplu” de date: (u, q, d), unde u este informații despre utilizator, q sunt date de interogare de la utilizator și d este informații despre document referitoare la paginile returnate din datele de interogare.
Recomandări despre actualizarea brevetului de model pentru clasamentele de căutare
Google a avut recent o actualizare mare de bază, așa cum este descris în Google Confirms Broad Core Algorithm Update: The Facts & Advice. Știm că Google și-a actualizat algoritmii de căutare de bază, posibil de 2 ori pe zi, pentru o perioadă lungă de timp. Nu știm când actualizările care sunt reflectate în noua versiune a acestui brevet de model de clasare de căutare ar fi putut fi aplicate, dar este posibil să fi fost pentru că, ca brevet de continuare, ar reflecta în mod ideal modificările aduse procesului din spatele brevetului, care ar fi putut fi pus în aplicare pe algoritm în timp. Dacă Google a folosit această abordare pentru a clasa paginile, ar putea fi considerată parte a algoritmului de căutare de bază. Acest brevet ia în considerare o cantitate foarte mare de date care implică interogări și documente ale utilizatorilor pentru a determina clasamentele de căutare.

