Cofeină: Google's Indexer

Publicat: 2017-03-24

Google Coffeine

Actualizările motorului de căutare Google sunt adesea evenimente misterioase, dar uneori dau peste informații din brevetele Google care oferă câteva informații despre cum funcționează ceva. O actualizare Google care avea ca scop să facă Google mult mai rapid decât fusese a fost actualizarea Coffeine, care a fost anunțată oficial de Google în 2010 cu această postare: Noul nostru index de căutare: Coffeine.

Dacă modificați conținutul unei pagini web, cât timp durează până când aceste modificări apar în indexul Google? Dacă publicați o pagină nouă sau o postare pe blog, când devine aceasta parte a indexului Google ca ceva ce poate deveni interogat? A trecut ceva timp înainte ca conținutul adăugat pe Web să devină ceva ce poate fi căutat. Google și-ar actualiza indexul și o mulțime de date care au fost adăugate pe web ar deveni interogabile într-o mișcare care a fost numită de mulți oameni Google Dance. Apoi Google a lansat o abordare care a însemnat că au avut loc schimbări mai rapid în rezultatele căutării, iar fostul șef al serviciului de spam web al Google, Matt Cutts, a făcut referire la aceasta în acest videoclip, unde a descris „Fluxul” care se întâmpla în rezultatele Căutării Google:

Google a lansat actualizări menite să accelereze indexarea conținutului de pe web. Una dintre aceste actualizări a fost denumită actualizarea Big Daddy. Un altul care a avut loc în 2009 a fost denumit actualizarea cafeinei. Un aspect ușor diferit este disponibil în acest articol de ziar: Google Caffeine: What it really is

Recent, am dat peste un brevet care arată cum Google și-ar putea face indexul de căutare mult mai rapid și am decis să-l distribui după ce am văzut actualizarea Google Caffeine acuzată pentru multe modificări aduse modului în care conținutul de pe Web a fost indexat de-a lungul anilor - partajarea acestui brevet ar putea oferi oamenilor un pic mai multă înțelegere a modului în care Google poate indexa paginile de pe web. Trei brevete conexe au fost depuse în aceeași zi. Ele oferă o privire interesantă asupra modului în care poate funcționa cofeina. Ceea ce fac ei este pur și simplu asta:

Exemplele de realizare dezvăluite se referă, în general, la sisteme și metode de procesare a datelor, și în special la un depozit de documente care acceptă latențe scăzute de la actualizarea unui document până la momentul în care documentul este disponibil pentru interogări și care necesită o sincronizare redusă între firele de interogare și firele de actualizare ale depozitului. .

Deci, dacă v-ați întrebat cât durează de la momentul în care publicați ceva pe web până la momentul în care este adăugat la indexul Google, depinde de sincronizarea descrisă în acele brevete.

Google caută ceea ce se numește index inversat, care conține toate cuvintele din fiecare document pe care îl indexează pe web, împreună cu indicatorii pentru locațiile acelor cuvinte. Brevetul subliniază ceea ce se referă ca „obstacole” în furnizarea de rezultate proaspete. Acestea includ:

(1) cheltuielile sau cheltuielile generale asociate cu reconstruirea indexului documentelor de fiecare dată când depozitul de documente este actualizat. De exemplu, o suprasarcină semnificativă este adesea asociată cu construirea de indici mici din documente noi și actualizate și îmbinarea periodică a indicilor mici cu indexul principal, iar astfel de sisteme suferă de obicei latențe mari între actualizările documentelor și disponibilitatea acelor documente în indexul de depozit.

(2) dificultatea procesării continue a interogărilor împotriva depozitului de documente în timpul actualizării depozitului, fără a suporta cheltuieli mari. Un aspect al acestui al doilea obstacol este necesitatea de a sincroniza atât firele care execută interogări, cât și firele care actualizează depozitul de documente cu structurile de date cheie din depozitul de date. Necesitatea de a sincroniza firele de interogare și firele de actualizare a depozitului poate prezenta un obstacol semnificativ pentru funcționarea eficientă a depozitului de documente dacă actualizările documentelor sunt efectuate frecvent, ceea ce, la rândul său, reprezintă o barieră în menținerea prospețimii depozitului de documente.

Pentru a ajunge la brevet și a citi totul, iată un link către acesta:

Sistem de rulare a documentelor și metodă pentru actualizarea documentelor într-un depozit de documente și recuperarea spațiului de stocare din documente invalidate
Inventatori: Michael Burrows și Jeffrey A. Dean
Cesionar: Google Inc.
Brevetul SUA 7.617.226
Acordat: 10 noiembrie 2009
Depus: 10 februarie 2006

Abstract

Un depozit de tokenspace stochează documente ca o secvență de token-uri. Depozitul de tokenspace, precum și indexul inversat pentru depozitul de tokenspace, utilizează o structură de date care are un prim capăt și un al doilea capăt și permite inserări la cel de-al doilea capăt și ștergeri de pe front end. Un document din depozitul tokenspace este actualizat prin inserarea versiunii actualizate în depozit la al doilea capăt și invalidarea versiunii anterioare. Documentele invalidate nu sunt șterse imediat; acestea sunt identificate într-o listă de colectare a gunoiului pentru colectarea ulterioară a gunoiului. Depozitul de tokenspace este rulat pentru a muta documentele invalidate pe front-end, moment în care acestea pot fi șterse și spațiul lor de stocare recuperat.

Treadmilling

Când am citit acest brevet, unul dintre cuvintele care mi-a atras atenția a fost „treadmilling”, care a fost folosit pentru a descrie modul în care datele erau gestionate în indexul Google:

Deoarece ștergerea poate fi făcută numai pentru datele din partea frontală, periodic datele din celule sunt „treadmilled”. Adică, datele valide din front-end sunt copiate în back-end și datele originale valide din front-end sunt șterse. Deoarece datele valide de la front-end sunt mutate în back-end, datele din celulele dintre front-end și back-end sunt mutate în mod logic către front-end, unde pot fi șterse dacă este necesar. Astfel, treadmilling ajută la recuperarea spațiului de memorie care este ocupat de date (numite uneori date învechite) care nu mai sunt valabile. Informaţii suplimentare referitoare la treadmill sunt descrise mai jos, în legătură cu fig. 13-15.

Restul brevetului oferă mai multe detalii despre modul în care funcționează acest sistem de indexare și, după ce l-am citit, m-am trezit să mă întreb dacă se vorbea despre cafeină și dacă cafeina mai era folosită de Google. În ultimele zile în urmă, purtătorul de cuvânt al Google, Gary Illyes, a scris câteva tweet-uri secrete care se refereau la indexatorul Google Coffeine în moduri care păreau să indice că este încă importantă și este încă folosită de Google:

Gary Illyes Cofeine Tweets