Domande e risposte con Paul Haahr, Ranking Engineer presso Google, SMX West 2016

Pubblicato: 2021-10-08

Recentemente l'industria SEO ha ricevuto un po' di trasparenza e intuizione da un membro dello staff di Google. In particolare un membro della loro divisione di ingegneria del ranking: una persona che contribuisce direttamente all'algoritmo di Google.

Paul Haahr, Software Engineer presso Google negli ultimi 14 anni, ha tenuto una presentazione a SMX West a marzo su come funziona Google, dal suo punto di vista di Ranking Engineer. Alcuni pezzi di copertura:

  • Video completo qui.
  • La mia copertura e pensieri qui.
  • La copertura di Rae Hoffman qui (non perdetevi i commenti!).
  • La trascrizione completa della presentazione di Richard Baxter.

Questo post riguarderà le domande e risposte che Danny Sullivan ha condotto con Paul dopo la sua presentazione, a cui si è unito Gary Iylles, un Webmaster Trends Analyst di Google. Video completo qui sotto:

Nel Q&A sono state poste 16 domande. Prendiamoli uno alla volta.

Nota: parafraserò le risposte in base alla mia comprensione. Se vuoi vedere la risposta completa, ti suggerisco di guardare il video. Ogni domanda ha il video incorporato fino al punto in cui Danny fa la domanda.

1. I frammenti fanno parte dell'indice generale in vari punti?

L'indice è la somma di tutti i frammenti insieme.

Google ha una vasta rete di macchine molto grandi e sceglie le dimensioni dei frammenti per riempire queste macchine molto grandi. Sembra che i frammenti siano il modo di Google per affrontare il problema della scala, rendendo gestibile la dimensione dell'indice.

2. Come si inserisce RankBrain in tutto questo?

  1. A RankBrain vengono forniti alcuni sottoinsiemi di segnali nell'algoritmo (non è chiaro quali segnali).
  2. RankBrain è un sistema di apprendimento automatico (deep learning? Paul si corregge in deep learning) che ha le sue idee su come combinare i segnali e comprendere i documenti.
  3. Google capisce come funziona RankBrain (dopo molti sforzi), ma non capisce cosa sta facendo esattamente.
  4. RankBrain utilizza gran parte di ciò che Google ha pubblicato sul deep learning.
  5. Uno strato di ciò che sta facendo RankBrain è word2vec e word embedding.
  6. RankBrain inizia dopo la fase successiva al recupero nella vita di una query. (Paul si riferisce a questo come a una "scatola").

3. In che modo RankBrain conosce l'autorità di una pagina? Come fa a conoscere la qualità?

RankBrain ha dati di allenamento robusti, pensati per migliorare questa funzionalità. Vede i segnali oltre alle query e alle pagine web.

A me sembra che RankBrain non abbia bisogno di determinare l'autorità o la qualità di una pagina. Ha già alimentato quell'informazione.

4. Quali obiettivi di conversione ha Google durante il test dei perfezionamenti dell'algoritmo di ranking? Esistono obiettivi coerenti rispetto ai quali vengono misurati tutti gli aggiornamenti?

Google aveva una metrica chiamata "Tasso pagina successiva" che sostanzialmente misurava la frequenza con cui le persone cliccavano sulla seconda pagina dei risultati. Il concetto che è la prima pagina non è stato un grande risultato. Tuttavia, questo potrebbe essere facilmente manipolato / manipolato.

Lo spazio bianco, in particolare, ridurrebbe la probabilità che le persone clicchino sulla seconda pagina della ricerca.

[scena tagliata nel video]

Nota: una domanda simile viene posta in seguito, alle 8:50. Scorri verso il basso fino alla domanda n. 8 per vedere il video e la risposta.

5. Una delle prime cose da fare è determinare se una query contiene un'entità. Era qualcosa che hai fatto cinque anni fa?

È iniziato contemporaneamente al Knowledge Graph e ai Knowledge Panel. È la chiave di quei processi.

Non era qualcosa che Google stava facendo prima di lanciare il Knowledge Graph nel 2011.

6. Se qualcuno ha effettuato l'accesso a qualsiasi app di Google, ti distingui in base alle informazioni che raccogli? Essere in Google Now rispetto a Google Chrome può influire sulla ricerca?

La vera domanda è se hai effettuato l'accesso o meno.

Se hai effettuato l'accesso, Google introduce la personalizzazione della ricerca. Google vuole fornire agli utenti un'esperienza di ricerca coerente, in base ai tuoi interessi e a ciò che viene mostrato nelle schede Google Now.

Finché sei loggato e non hai disattivato la personalizzazione della ricerca, avrai la personalizzazione nelle tue esperienze di ricerca.

È più probabile che la ricerca ti segua su tutti i tuoi dispositivi rispetto ai segnalibri.

7. Google fornisce risultati diversi per la stessa query in momenti diversi durante la giornata? Le mappe locali sembrano cambiare con l'orario di lavoro.

Né Paul né Gary erano sicuri, anche se entrambi sembravano ritenere che gli orari di apertura non avrebbero influito su una query.

Google si impegnava a mostrare gli orari di chiusura (e gli orari di apertura) se l'attività fosse chiusa, ma nessuno dei due sembrava pensare che gli orari avrebbero influito sulla presenza o meno di una mappa nei risultati di ricerca.

Semplicemente perché un'attività è chiusa (o prossima alla chiusura) non significa che l'utente non sia interessato alla sua posizione fisica.

8. In che modo Google determina cambiamenti positivi o negativi negli esperimenti con valutatori umani? Esiste un rapporto vincitori/perdenti per query?

Google ha un rapporto riassuntivo su ogni esperimento, come l'esperimento è stato eseguito in base a una serie di metriche diverse (che variano a seconda dell'esperimento), che include tutte le query coinvolte.

Ci sono classifiche su vittorie e sconfitte. Nell'esempio citato in precedenza, la query sui fertilizzanti che mostrava una mappa, era stata classificata come vincente. Gli esseri umani esaminano le metriche e i risultati. Tuttavia, in questo caso Paul si è riferito a se stesso che ha catturato gli scarsi risultati che vengono segnalati come una vittoria.

Paul tiene a dire che i valutatori umani sono grandi nel complesso, ma commettono errori. Nello specifico, i valutatori umani si entusiasmano per determinate funzionalità, anche se le funzionalità non aggiungono valore.

9. Cosa sta succedendo con Panda e Pinguino?

Paul non ha una risposta. Fa un punto per dire che Panda e Penguin sono entrambi presi in considerazione nella "scatola" del punteggio e del recupero.

Danny reindirizza l'attenzione su Gary, famoso per aver ripetutamente affermato negli ultimi sei mesi che Penguin era vicino al lancio. In effetti, Gary ha detto che Penguin sarebbe stato lanciato prima del nuovo anno (gennaio 2016).

Ovviamente, le previsioni di Gary non sono andate a buon fine.

Gary riferisce di aver rinunciato a segnalare un momento in cui Penguin verrà lanciato. Sa che gli ingegneri ci stanno lavorando in modo specifico, ma dopo aver sbagliato tre volte non è disposto a dire una data o un periodo di tempo.

Paul cita ancora una volta il lungo ciclo di iterazione del lancio di nuovi segnali di ranking e algoritmi.

10: Hai parlato di un lancio che ha richiesto due anni. Era il pinguino?

Il lancio di due anni di cui parlava Paul non era Penguin.

Il lancio è stato un lancio a metà classifica-metà funzionalità. È stato il loro primo tentativo di correzione ortografica che ha richiesto oltre la metà delle SERP, mostrando i risultati per un errore di ortografia, invece di una funzione "volevi dire".

La prima iterazione lanciata di quella funzionalità ha richiesto notevoli riscritture (presumibilmente per adattarsi all'algoritmo).

11: Hai menzionato l'esperienza di un determinato autore. Come stai identificando e monitorando l'autorità dell'autore per gli argomenti?

Paul non può entrare nei dettagli qui. Tuttavia, i valutatori umani negli esperimenti hanno il compito di farlo manualmente per le pagine che vedono . Google confronta le proprie metriche con ciò che trovano i valutatori umani, convalidando (o invalidando) le proprie metriche.

12: L'autorità dell'autore viene utilizzata come fattore di classificazione diretto o indiretto?

Non c'è una risposta semplice: Paul non può dire sì o no. È più complicato di quanto la domanda implichi.

13: Dovremmo continuare a preoccuparci di rel=author?

Gary dice che c'è almeno un team che continua a usare il tag rel=author.

Gary non raccomanderebbe di creare il tag per le nuove pagine, ma non raccomanderebbe nemmeno di estrarre il tag rel=author dalle vecchie pagine. Il tag non danneggia nulla e potrebbe essere utilizzato per qualcosa in futuro.

14: Come si evita che i valutatori della qualità abbiano un pregiudizio sulla familiarità del marchio?

Ai valutatori umani, prima degli esperimenti, viene chiesto di fare ricerca, ma Paul riconosce che spesso hanno un pregiudizio.

Paul dice che ci sono metriche in atto che hanno lo scopo di contrastare quella distorsione e che quelle metriche non sono specificamente nel segnale di qualità.

È interessante notare che Paul dice disinvolto: "Non ho iniziato a esaminare tutte le metriche che effettivamente esaminiamo".

L'implicazione, quindi, è che ci sono molte metriche al di là della rilevanza e della qualità che vengono esaminate all'interno degli esperimenti.

Paul tiene a dire che ci sono molti piccoli siti che ottengono una valutazione di qualità, "perché i valutatori fanno un lavoro accurato. Sembrano essere bravi a capirlo".

15: La percentuale di clic (CTR) è un segnale di ranking?

Paul conferma che il CTR è utilizzato negli esperimenti e nella personalizzazione.

Tuttavia, la metrica è difficile da utilizzare in qualsiasi circostanza.

Gary interviene dicendo che anche con i gruppi controllati è difficile interpretare correttamente il coinvolgimento.

Paul è d'accordo sul fatto che molti esperimenti che sono stati fatti hanno metriche dal vivo fuorvianti. L'esempio che cita sono gli snippet, così come "Next Page Rate" di cui alla domanda n. 4.

Paul cita anche un esperimento dal vivo di lunga data che ha scambiato i risultati n. 2 e n. 4 nei risultati di ricerca. È stato randomizzato e solo per lo 0,02% degli utenti. Il risultato? Molte più persone hanno cliccato sul risultato #1. Paolo spiega questo:

"Vedono il n. 1 - non sanno se gli piace o no - ne guardano due, che è davvero molto peggio del n. 2, si arrendono perché il risultato che avrebbe dovuto essere al n. 4 è stato in realtà al n. 2 era così brutto che fanno clic al n. 1".

— Paul Haahr a SMX West 2016, spiegando un esperimento dal vivo di Google che porta a metriche di clic non convenzionali.

Un altro pregiudizio interessante che Paul cita è che la posizione n. 10 ottiene "molti più clic" rispetto alle posizioni n. 8 e n. 9 insieme. Come mai? Perché è l'ultimo risultato prima della pagina successiva e nessuno vuole fare clic sulla pagina successiva.

Anche ancora, il #10 si comporta peggio della posizione #7.

Il punto di tutto questo? Il CTR è un segnale estremamente difficile da usare, spesso il risultato di pregiudizi strani e comportamenti umani imprevedibili .

16: Cosa stai leggendo in questo momento?

Paul legge "molto giornalismo e pochissimi libri". Ascolta anche molti audiolibri durante il suo tragitto giornaliero tra San Francisco e Mountain View.

Libri che Paolo cita:

  • La città in fiamme di Garth Risk Hallberg
  • e Non può succedere qui di Sinclair Lewis.

...e questo è un involucro!

Domande? Commenti? Pensieri? Lasciali qui sotto!