Tanya Jawab dengan Paul Haahr, Ranking Engineer di Google, SMX West 2016

Diterbitkan: 2021-10-08

Baru-baru ini industri SEO menerima sedikit transparansi dan wawasan yang langka dari anggota staf Google. Khususnya anggota divisi rekayasa peringkat mereka: seseorang yang secara langsung berkontribusi pada algoritme Google.

Paul Haahr, Software Engineer di Google selama 14 tahun terakhir, memberikan presentasi di SMX West pada bulan Maret tentang cara kerja Google, dari sudut pandangnya sebagai Ranking Engineer. Beberapa liputan:

Video lengkapnya di sini.
Liputan dan pemikiran saya di sini.
Liputan Rae Hoffman di sini (jangan lewatkan komentarnya!).
Transkrip lengkap presentasi Richard Baxter.

Posting ini akan membahas Q&A yang dipimpin Danny Sullivan dengan Paul setelah presentasinya, yang diikuti oleh Gary Iylles, Analis Tren Webmaster di Google. Video lengkapnya di bawah ini:

Dalam Q&A 16 pertanyaan diajukan. Mari kita ambil satu per satu.

Catatan: Saya akan memparafrasekan jawaban berdasarkan pemahaman saya sendiri. Jika Anda ingin menonton jawaban lengkapnya, saya sarankan Anda menonton videonya. Setiap pertanyaan memiliki video yang disematkan ke titik di mana Danny mengajukan pertanyaan.

1. Pecahan adalah bagian dari indeks keseluruhan di berbagai tempat?

Indeks adalah jumlah dari semua pecahan bersama-sama.

Google memiliki jaringan besar mesin yang sangat besar, dan mereka memilih ukuran pecahan untuk mengisi mesin yang sangat besar ini. Sepertinya pecahan adalah cara Google untuk mengatasi masalah skala, membuat ukuran indeks dapat dikelola.

2. Bagaimana RankBrain cocok dengan semua ini?

RankBrain disediakan subset sinyal tertentu dalam algoritme (sinyal mana yang tidak jelas).
RankBrain adalah sistem pembelajaran mesin (pembelajaran mendalam? Paul mengoreksi dirinya sendiri ke pembelajaran mendalam) yang memiliki ide sendiri tentang cara menggabungkan sinyal dan memahami dokumen.
Google memahami cara kerja RankBrain (setelah banyak usaha), tetapi mereka tidak mengerti persis apa yang dilakukannya.
RankBrain menggunakan banyak dari apa yang telah dipublikasikan Google tentang pembelajaran mendalam.
Satu lapisan dari apa yang dilakukan RankBrain adalah word2vec dan word embeddings.
RankBrain dimulai setelah fase pasca-pengambilan akhir dalam kehidupan kueri. (Paulus menyebutnya sebagai "kotak").

3. Bagaimana RankBrain mengetahui otoritas sebuah halaman? Bagaimana cara mengetahui kualitasnya?

RankBrain memiliki data pelatihan yang kuat, yang dimaksudkan untuk meningkatkan fungsi ini. Ia melihat sinyal selain kueri dan halaman web.

Bagi saya, sepertinya RankBrain tidak perlu menentukan otoritas atau kualitas halaman. Itu sudah diberi informasi itu.

4. Sasaran konversi apa yang dimiliki Google saat menguji penyempurnaan algoritme peringkat? Apakah ada tujuan yang konsisten yang diukur terhadap semua pembaruan?

Google dulu memiliki metrik yang disebut "Rasio Halaman Berikutnya" yang pada dasarnya mengukur seberapa sering orang mengklik halaman kedua hasil. Konsep menjadi halaman pertama bukanlah hasil yang bagus. Namun, ini bisa dengan mudah dimainkan/dimanipulasi.

Ruang kosong, khususnya, akan mengurangi kemungkinan orang mengklik ke halaman dua pencarian.

[potong adegan dalam video]

Catatan: Pertanyaan serupa akan ditanyakan kemudian, pada menit ke 8:50. Gulir ke bawah ke pertanyaan #8 untuk melihat video dan tanggapannya.

5. Salah satu hal pertama yang Anda lakukan adalah menentukan apakah kueri berisi entitas. Apakah itu sesuatu yang Anda lakukan lima tahun lalu?

Itu dimulai bersamaan dengan Grafik Pengetahuan dan Panel Pengetahuan. Ini adalah kunci dari proses tersebut.

Itu bukan sesuatu yang dilakukan Google sebelum mereka meluncurkan Grafik Pengetahuan pada tahun 2011.

6. Jika seseorang masuk ke aplikasi Google apa pun , apakah Anda membedakannya berdasarkan informasi yang Anda kumpulkan? Bisakah berada di Google Now versus Google Chrome memengaruhi pencarian?

Pertanyaan sebenarnya adalah apakah Anda masuk atau tidak.

Jika Anda masuk, Google menghadirkan personalisasi pencarian. Google ingin memberikan pengalaman penelusuran yang konsisten bagi pengguna, berdasarkan minat Anda, serta apa yang ditampilkan di kartu Google Now.

Selama Anda masuk, dan belum mematikan personalisasi pencarian, Anda akan memiliki personalisasi dalam pengalaman pencarian Anda.

Anda lebih cenderung memiliki pencarian yang mengikuti Anda di seluruh perangkat Anda daripada bookmark.

7. Apakah Google memberikan hasil yang berbeda untuk kueri yang sama pada waktu yang berbeda sepanjang hari? Peta lokal tampaknya berubah dengan jam kerja.

Baik Paul maupun Gary tidak yakin, meskipun keduanya tampaknya berpikir jam operasional tidak akan memengaruhi kueri.

Google akan menunjukkan jam tutup (dan jam operasional) jika bisnis tutup, tetapi tampaknya tidak ada yang berpikir jam akan memengaruhi apakah peta ada dalam hasil pencarian atau tidak.

Hanya karena bisnis tutup (atau hampir tutup) tidak berarti pencari tidak tertarik dengan lokasi fisik mereka.

8. Bagaimana cara Google menentukan perubahan positif atau negatif dalam eksperimen dengan penilai manusia? Apakah ada laporan pemenang/pecundang berdasarkan kueri?

Google memiliki laporan ringkasan pada setiap percobaan, bagaimana percobaan dilakukan menurut sekelompok metrik yang berbeda (yang bervariasi tergantung pada percobaan), yang semuanya mencakup setiap kueri yang terlibat.

Ada klasifikasi menang dan kalah. Dalam contoh yang disebutkan sebelumnya — permintaan pupuk yang menampilkan peta — dikategorikan sebagai menang. Manusia meninjau metrik dan hasil. Namun, dalam hal ini Paul menyebut dirinya menangkap hasil buruk yang dilaporkan sebagai kemenangan.

Paul membuat poin untuk mengatakan bahwa penilai manusia pada umumnya hebat, tetapi melakukan kesalahan. Secara khusus, penilai manusia merasa senang dengan fitur tertentu, meskipun fitur tersebut tidak menambah nilai.

9. Apa yang terjadi dengan Panda dan Penguin?

Paulus tidak punya jawaban. Dia benar-benar mengatakan bahwa Panda dan Penguin sama-sama diperhitungkan dalam "kotak" penilaian dan pengambilan.

Danny mengalihkan fokus ke Gary, yang terkenal karena berulang kali mengatakan dalam enam bulan terakhir bahwa Penguin hampir diluncurkan. Bahkan, Gary mengatakan Penguin akan diluncurkan sebelum tahun baru (Januari 2016).

Jelas, prediksi Gary belum berhasil.

Gary melaporkan bahwa dia menyerah untuk melaporkan kapan Penguin akan diluncurkan. Dia tahu para insinyur secara khusus mengerjakannya, tetapi setelah salah tiga kali dia tidak mau mengatakan tanggal atau jangka waktu.

Paul menyebutkan lagi siklus iterasi yang panjang dari peluncuran sinyal dan algoritme peringkat baru.

10: Anda berbicara tentang peluncuran yang memakan waktu dua tahun. Apakah itu Pinguin?

Peluncuran dua tahun yang dibahas Paul bukanlah Penguin.

Peluncuran ini merupakan peluncuran setengah peringkat-setengah fitur. Itu adalah upaya pertama mereka dalam koreksi ejaan yang mengambil alih setengah SERP, menunjukkan hasil untuk kesalahan ejaan, alih-alih fungsi "maksud Anda".

Iterasi pertama yang diluncurkan dari fitur itu membutuhkan penulisan ulang yang cukup besar (mungkin agar sesuai dengan algoritme).

11: Anda menyebutkan keahlian seorang penulis tertentu. Bagaimana Anda mengidentifikasi dan melacak otoritas penulis untuk topik?

Paul tidak bisa menjelaskan secara detail di sini. Namun, penilai manusia dalam eksperimen ditugaskan untuk melakukannya secara manual untuk laman yang mereka lihat . Google membandingkan metrik mereka sendiri dengan apa yang ditemukan oleh penilai manusia, sehingga memvalidasi (atau membatalkan) metrik mereka sendiri.

12: Apakah otoritas penulis digunakan sebagai faktor peringkat langsung atau tidak langsung?

Tidak ada jawaban sederhana: Paulus tidak bisa mengatakan ya atau tidak. Ini lebih rumit dari pertanyaan yang tersirat.

13: Haruskah kita terus repot dengan rel=author?

Gary mengatakan setidaknya ada satu tim yang terus menggunakan tag rel=author.

Gary tidak akan merekomendasikan membuat tag untuk halaman baru, tetapi juga tidak akan merekomendasikan untuk menarik tag rel=author dari halaman lama. Tag tidak merugikan apa pun, dan mungkin digunakan untuk sesuatu di masa mendatang.

14: Bagaimana Anda menghindari penilai kualitas memiliki bias keakraban merek?

Penilai manusia, sebelum eksperimen, diminta untuk melakukan penelitian, tetapi Paul mengakui bahwa mereka sering memiliki bias.

Paul mengatakan ada metrik di tempat yang dimaksudkan untuk melawan bias itu, dan metrik tersebut secara khusus tidak dalam sinyal kualitas.

Menariknya, Paul mengatakan dengan acuh tak acuh: "Saya belum mulai memeriksa semua metrik yang sebenarnya kami lihat."

Implikasinya, ada banyak metrik di luar relevansi dan kualitas yang dilihat dalam eksperimen.

Paul menegaskan bahwa ada banyak situs kecil yang mendapatkan peringkat kualitas, "karena penilai melakukan pekerjaan dengan cermat. Mereka tampaknya pandai dalam memikirkan hal ini."

15: Apakah Click Through Rate (CTR) merupakan sinyal peringkat?

Paul menegaskan RKT digunakan dalam eksperimen, serta dalam personalisasi.

Metrik ini menantang untuk digunakan dalam keadaan apa pun.

Gary menimpali untuk mengatakan bahkan dengan kelompok terkontrol, sulit untuk menafsirkan keterlibatan dengan benar.

Paul setuju bahwa banyak eksperimen yang telah dilakukan yang memiliki metrik langsung yang menyesatkan. Contoh yang dia kutip adalah cuplikan, serta "Rasio Halaman Berikutnya" yang dirujuk dalam pertanyaan #4.

Paul juga mengutip eksperimen langsung yang sudah berjalan lama yang menukar hasil #2 & #4 di hasil penelusuran. Itu diacak dan hanya untuk 0,02% pengguna. Hasil? Lebih banyak orang mengklik hasil #1. Paulus menjelaskan ini:

"Mereka melihat # 1 - mereka tidak tahu apakah mereka suka atau tidak - mereka melihat dua, yang benar-benar jauh lebih buruk daripada # 2, mereka menyerah karena hasil yang seharusnya ada di # 4 dan sebenarnya di # 2 sangat buruk sehingga mereka mengklik # 1."
— Paul Haahr di SMX West 2016, menjelaskan eksperimen langsung Google yang mengarah ke metrik klik yang tidak konvensional.

Bias menarik lainnya yang dikutip Paul adalah bahwa posisi #10 mendapatkan "klik lebih banyak" daripada posisi #8 & #9 secara bersamaan. Mengapa? Karena itu hasil terakhir sebelum halaman berikutnya, dan tidak ada yang mau mengklik ke halaman berikutnya.

Meski begitu, posisi #10 lebih buruk dari posisi #7.

Inti dari semua ini? RKT adalah sinyal yang sangat sulit digunakan, sering kali merupakan hasil dari bias yang aneh dan perilaku manusia yang tidak dapat diprediksi .

16: Apa yang sedang kamu baca sekarang?

Paulus membaca "banyak jurnalisme dan sedikit buku." Dia juga mendengarkan banyak buku audio dalam perjalanannya antara San Francisco dan Mountain View.

Buku yang Paulus sebutkan:

Kota Garth Risk Hallberg Terbakar
dan Sinclair Lewis' Itu Tidak Bisa Terjadi Di Sini .

... dan itu bungkus!

Pertanyaan? Komentar? Pikiran? Tinggalkan mereka di bawah!