Întrebări și răspunsuri cu Paul Haahr, inginer clasament la Google, SMX West 2016
Publicat: 2021-10-08Recent, industria SEO a primit un pic rar de transparență și perspectivă de la un membru al personalului Google. Mai exact, un membru al diviziei lor de inginerie de clasare: o persoană care contribuie direct la algoritmul Google.
Paul Haahr, inginer software la Google în ultimii 14 ani, a susținut o prezentare la SMX West în martie despre modul în care funcționează Google, din perspectiva sa ca inginer clasament. Câteva piese de acoperire:
- Videoclip complet aici.
- Acoperirea și gândurile mele aici.
- Acoperirea lui Rae Hoffman aici (nu ratați comentariile!).
- Transcrierea completă a prezentării de către Richard Baxter.
Această postare va acoperi întrebările și răspunsurile conduse de Danny Sullivan împreună cu Paul după prezentarea sa, căruia i s-a alăturat Gary Iylles, un webmaster Trends Analyst la Google. Videoclipul complet mai jos:
În întrebări și răspunsuri au fost adresate 16 întrebări. Să le luăm pe rând.
Notă: voi parafraza răspunsuri pe baza propriei înțelegeri. Dacă doriți să urmăriți răspunsul complet, vă sugerez să vizionați videoclipul. Fiecare întrebare are videoclipul încorporat până la punctul în care Danny pune întrebarea.
1. Fragmentele sunt părți ale indicelui general în diferite locuri?
Indicele este suma tuturor cioburilor împreună.
Google are o rețea mare de mașini foarte mari și aleg dimensiunile fragmente pentru a umple aceste mașini foarte mari. Se pare că cioburile sunt modalitatea Google de a rezolva problema scării, făcând dimensiunea indexului ușor de gestionat.
2. Cum se încadrează RankBrain în toate acestea?
- RankBrain are anumite subseturi de semnale din algoritm (nu este clar ce semnale).
- RankBrain este un sistem de învățare automată (învățare profundă? Paul se corectează la învățare profundă) care are propriile idei despre cum să combine semnale și să înțeleagă documente.
- Google înțelege cum funcționează RankBrain (după mult efort), dar nu înțeleg exact ce face.
- RankBrain folosește o mare parte din ceea ce Google a publicat despre învățarea profundă.
- Un strat din ceea ce face RankBrain este word2vec și încorporări de cuvinte.
- RankBrain se inițiază după faza post-recuperare târzie din viața unei interogări. (Pavel se referă la aceasta ca la o „cutie”).
3. Cum știe RankBrain autoritatea unei pagini? De unde știe calitatea?
RankBrain are date de antrenament robuste, menite să îmbunătățească această funcționalitate. Vede semnale pe lângă interogări și pagini web.
Pentru mine, se pare că RankBrain nu ar trebui să stabilească autoritatea sau calitatea unei pagini. A furnizat deja aceste informații.
4. Ce obiective de conversie are Google atunci când testează rafinamentele algoritmului de clasare? Există obiective consecvente cu care se măsoară toate actualizările?
Google obișnuia să aibă o valoare numită „Rata paginii următoare”, care măsoară practic frecvența cu care oamenii făceau clic pe a doua pagină de rezultate. Conceptul de a fi prima pagină nu a fost un rezultat excelent. Cu toate acestea, acest lucru ar putea fi ușor jucat / manipulat.
Spațiul alb, în special, ar reduce probabilitatea ca oamenii să facă clic pe pagina a doua de căutare.
[tăiați scena în videoclip]
Notă: O întrebare similară este pusă mai târziu, la ora 8:50. Derulați în jos la întrebarea nr. 8 pentru a vedea videoclipul și răspunsul.
5. Unul dintre primele lucruri pe care le faceți este să determinați dacă o interogare conține o entitate. A fost ceva ce ai făcut acum cinci ani?
Aceasta a început în același timp cu graficul de cunoștințe și panourile de cunoștințe. Este cheia acestor procese.
Google nu făcea nimic înainte să lanseze Knowledge Graph în 2011.
6. Dacă cineva este conectat la orice aplicație Google, vă diferențiați prin informațiile pe care le culegeți? Poate fi în Google Now față de Google Chrome să aibă impact asupra căutării?
Adevărata întrebare este dacă sunteți autentificat sau nu.
Dacă sunteți conectat, Google aduce personalizarea căutării. Google dorește să ofere utilizatorilor o experiență de căutare consecventă, pe baza intereselor dvs., precum și a ceea ce este afișat în cardurile Google Now.
Atâta timp cât sunteți conectat și nu ați dezactivat personalizarea căutării, veți avea personalizare în experiențele dvs. de căutare.
Este mai probabil să vă urmăriți căutarea pe toate dispozitivele dvs. decât marcajele.
7. Oferă Google rezultate diferite pentru aceeași interogare la diferite ore ale zilei? Hărțile locale par să se schimbe odată cu programul de lucru.
Nici Paul, nici Gary nu erau siguri, deși amândoi păreau că orele de funcționare nu vor afecta o interogare.
Google ar face un punct pentru a arăta orele de închidere (și orele de funcționare) dacă afacerea ar fi închisă, dar niciunul dintre ei nu părea să creadă că orele ar afecta dacă o hartă este sau nu prezentă în rezultatele căutării.
Simplul fapt că o companie este închisă (sau aproape de închidere) nu înseamnă că căutătorul nu este interesat de locația lor fizică.
8. Cum determină Google schimbări pozitive sau negative în experimentele cu evaluatori umani? Există un raport despre câștigători / învinși în urma interogărilor?
Google are un raport sumar al fiecărui experiment, modul în care experimentul a fost efectuat în funcție de o serie de valori diferite (care variază în funcție de experiment), toate acestea incluzând fiecare interogare implicată.
Există clasificări despre victorii și pierderi. În exemplul menționat anterior - interogarea cu îngrășăminte care afișa o hartă - a fost clasificată ca un câștig. Oamenii examinează valorile și rezultatele. Cu toate acestea, în acest caz, Pavel s-a referit la el însuși că a obținut rezultatele slabe, care sunt raportate ca o victorie.

Pavel face un punct pentru a spune că evaluatorii umani sunt în general mari, dar fac greșeli. Mai exact, evaluatorii umani sunt entuziasmați de anumite caracteristici, chiar dacă caracteristicile nu adaugă valoare.
9. Ce se întâmplă cu Panda și Penguin?
Paul nu are un răspuns. El face un punct pentru a spune că Panda și Penguin sunt luați în considerare în „caseta” de scorare și recuperare.
Danny redirecționează atenția către Gary, care este infam pentru că a spus în mod repetat în ultimele șase luni că Penguin era aproape de lansare. De fapt, Gary a spus că Penguin va lansa înainte de noul an (ianuarie 2016).
Evident, predicțiile lui Gary nu s-au deranjat.
Gary spune că a renunțat la raportarea unui moment în care Penguin va fi lansat. Știe că inginerii lucrează în mod special la asta, dar după ce a greșit de trei ori nu este dispus să spună o dată sau un interval de timp.
Paul menționează din nou ciclul lung de iterație al lansării de noi semnale de clasificare și algoritmi.
10: Ai vorbit despre o lansare care a durat doi ani. A fost acel Pinguin?
Lansarea pe doi ani pe care Paul a discutat-o nu a fost Penguin.
Lansarea a fost o lansare pe jumătate de rang. A fost prima lor încercare de corectare a ortografiei care a preluat peste jumătate din SERP, arătând rezultate pentru o greșeală de ortografie, în loc de o funcție „ai vrut să spui”.
Prima iterație lansată a acelei caracteristici a necesitat rescrieri considerabile (probabil pentru a se încadra în algoritm).
11: Menționați expertiza unui autor dat. Cum identificați și urmăriți autoritatea autorului pentru subiecte?
Paul nu poate intra în niciun detaliu aici. Cu toate acestea, evaluatorii umani din experimente au sarcina de a face acest lucru manual pentru paginile pe care le văd . Google compară propriile valori cu ceea ce găsesc evaluatorii umani, validând astfel (sau invalidând) propriile valori.
12: Autoritatea autorului este utilizată ca factor de clasare directă sau indirectă?
Nu există un răspuns simplu: Pavel nu poate spune da sau nu. Este mai complicat decât presupune întrebarea.
13: Ar trebui să ne deranjăm în continuare cu rel = author?
Gary spune că există cel puțin o echipă care continuă să se uite la utilizarea etichetei rel = author.
Gary nu ar recomanda crearea etichetei pentru pagini noi, dar nici nu ar recomanda extragerea etichetei rel = author din paginile vechi. Eticheta nu dăunează nimic și poate fi folosită pentru ceva în viitor.
14: Cum evitați evaluatorii de calitate să aibă o tendință de familiaritate a mărcii?
Evaluatorii umani, înainte de experimente, sunt rugați să facă cercetări, dar Pavel recunoaște că au adesea o părtinire.
Paul spune că există valori în loc care sunt destinate să contracareze această părtinire și că acele valori nu se află în mod specific în semnalul de calitate.
Interesant este faptul că Paul spune descurcat: „Nu am început să trec prin toate valorile la care ne uităm de fapt”.
Implicația, deci, este că există multe metrici dincolo de relevanță și calitate care sunt analizate în cadrul experimentelor.
Paul subliniază că există multe site-uri mici care obțin o evaluare a calității, "pentru că evaluatorii fac o treabă amănunțită. Se pare că sunt pricepuți să descopere acest lucru".
15: Este rata de clic (CTR) un semnal de clasare?
Paul confirmă că CTR este utilizat în experimente, precum și în personalizare.
Cu toate acestea, metrica este dificil de utilizat în orice circumstanță.
Gary zice că, chiar și cu grupurile controlate, este greu să interpretezi corect angajamentul.
Pavel este de acord cu faptul că s-au făcut multe experimente care au metrici vii înșelătoare. Exemplul pe care îl citează sunt fragmentele, precum și „Rata paginii următoare” la care se face referire la întrebarea nr. 4.
Paul citează, de asemenea, un experiment live de lungă durată care a schimbat rezultatele # 2 și # 4 în rezultatele căutării. A fost randomizat și numai pentru 0,02% dintre utilizatori. Rezultatul? Mai mulți oameni au dat clic pe rezultatul nr. 1. Pavel explică acest lucru:
„Văd numărul 1 - nu știu dacă le place sau nu - se uită la două, ceea ce este cu adevărat mult mai rău decât era # 2, renunță pentru că rezultatul care ar fi trebuit să fie la # 4 și a fost de fapt la # 2 a fost atât de rău încât au dat clic pe # 1. "
- Paul Haahr la SMX West 2016, explicând un experiment live Google care a condus la valori neconvenționale privind clicurile.
O altă părtinire interesantă pe care Paul o menționează este că poziția # 10 primește „mult mai multe clicuri” decât pozițiile # 8 și # 9 împreună. De ce? Pentru că este ultimul rezultat înainte de pagina următoare și nimeni nu vrea să facă clic pe pagina următoare.
Chiar și în continuare, # 10 are o performanță mai slabă decât poziția # 7.
Scopul tuturor acestor? CTR este un semnal extrem de greu de utilizat, adesea rezultatul unor prejudecăți ciudate și al unui comportament uman imprevizibil .
16: Ce citești acum?
Paul citește „mult jurnalism și foarte puține cărți”. De asemenea, ascultă o mulțime de cărți audio despre naveta sa între San Francisco și Mountain View.
Cărți pe care Paul le menționează:
- Orașul în flăcări al lui Garth Risk Hallberg
- și „ Nu se poate întâmpla aici de Sinclair Lewis.
... și asta e un pachet!
Întrebări? Comentarii? Gânduri? Lasă-le mai jos!
