Pytania i odpowiedzi z Paulem Haahrem, inżynierem ds. rankingów w Google, SMX West 2016

Opublikowany: 2021-10-08

Ostatnio branża SEO otrzymała rzadką odrobinę przejrzystości i wglądu od członka personelu Google. W szczególności członek ich działu inżynierii rankingu: osoba, która bezpośrednio wpływa na algorytm Google.

Paul Haahr, inżynier oprogramowania w Google od 14 lat, wygłosił w marcu prezentację na SMX West o tym, jak działa Google z jego perspektywy jako inżyniera rankingowego. Kilka fragmentów pokrycia:

Pełny film tutaj.
Moje relacje i przemyślenia tutaj.
Relacja Rae Hoffman tutaj (nie przegapcie komentarzy!).
Pełny zapis prezentacji Richarda Baxtera.

Ten post obejmuje pytania i odpowiedzi, które Danny Sullivan przeprowadził z Paulem po jego prezentacji, do którego dołączył Gary Iylles, analityk trendów dla webmasterów w Google. Pełny film poniżej:

W Q&A zadano 16 pytań. Weźmy je pojedynczo.

Uwaga: będę parafrazować odpowiedzi na podstawie mojego własnego zrozumienia. Jeśli chcesz obejrzeć pełną odpowiedź, proponuję obejrzeć film. Każde pytanie ma film osadzony w miejscu, w którym Danny zadaje pytanie.

1. Odłamki są częściami ogólnego indeksu w różnych miejscach?

Indeks to suma wszystkich odłamków razem.

Google ma dużą sieć bardzo dużych maszyn i wybiera rozmiary odłamków, aby wypełnić te bardzo duże maszyny. Wygląda na to, że odłamki są sposobem Google na radzenie sobie z problemem skali, dzięki czemu można zarządzać rozmiarem indeksu.

2. Jak do tego wszystkiego pasuje RankBrain?

RankBrain otrzymuje w algorytmie pewne podzbiory sygnałów (nie jest jasne, które sygnały).
RankBrain to system uczenia maszynowego (głębokie uczenie? Paul koryguje się do głębokiego uczenia), który ma własne pomysły na łączenie sygnałów i rozumienie dokumentów.
Google rozumie, jak działa RankBrain (po dużym wysiłku), ale nie rozumie, co dokładnie robi.
RankBrain wykorzystuje wiele z tego, co Google opublikowało na temat głębokiego uczenia się.
Jedną z warstw tego, co robi RankBrain, jest word2vec i osadzanie słów.
RankBrain inicjuje się po późnej fazie post-pobierania w życiu zapytania. (Paweł nazywa to „pudełkiem”).

3. Skąd RankBrain rozpoznaje autorytet strony? Skąd zna jakość?

RankBrain posiada solidne dane treningowe, mające na celu poprawę tej funkcjonalności. Widzi sygnały oprócz zapytań i stron internetowych.

Dla mnie brzmi to tak, jakby RankBrain nie musiał określać autorytetu ani jakości strony. Jest już karmiony tą informacją.

4. Jakie cele konwersji ma Google podczas testowania udoskonaleń algorytmu rankingu? Czy istnieją spójne cele, względem których mierzy się wszystkie aktualizacje?

Google miał kiedyś wskaźnik o nazwie „Wskaźnik następnej strony”, który zasadniczo mierzył, jak często ludzie klikali drugą stronę wyników. Koncepcja będąca pierwszą stroną nie przyniosła świetnych rezultatów. Można to jednak łatwo ograć/zmanipulować.

W szczególności biała przestrzeń zmniejszyłaby prawdopodobieństwo kliknięcia drugiej strony wyszukiwania.

[przerywnik w filmie]

Uwaga: Podobne pytanie zadamy później, o godzinie 8:50. Przewiń w dół do pytania nr 8, aby zobaczyć wideo i odpowiedź.

5. Jedną z pierwszych rzeczy, które robisz, jest określenie, czy zapytanie zawiera encję. Czy to było coś, co zrobiłeś pięć lat temu?

Zaczęło się to w tym samym czasie, co Graf wiedzy i Panele wiedzy. To klucz do tych procesów.

To nie było coś, co firma Google robiła przed uruchomieniem Grafu wiedzy w 2011 roku.

6. Jeśli ktoś jest zalogowany w dowolnej aplikacji Google, czy rozróżniasz gromadzone informacje? Czy obecność w Google Now w porównaniu z Google Chrome może mieć wpływ na wyszukiwanie?

Prawdziwe pytanie brzmi, czy jesteś zalogowany, czy nie.

Jeśli jesteś zalogowany, Google wprowadza personalizację wyszukiwania. Google chce zapewnić użytkownikom spójne wyszukiwanie na podstawie Twoich zainteresowań oraz tego, co wyświetlają się na kartach Google Now.

Dopóki jesteś zalogowany i nie wyłączysz personalizacji wyszukiwania, będziesz mieć personalizację w swoich doświadczeniach związanych z wyszukiwaniem.

Bardziej prawdopodobne jest, że wyszukiwanie będzie podążać za Tobą na różnych urządzeniach niż zakładki.

7. Czy Google dostarcza różne wyniki dla tego samego zapytania o różnych porach dnia? Mapy lokalne wydają się zmieniać wraz z godzinami pracy.

Ani Paul, ani Gary nie byli pewni, choć obaj wydawało się, że godziny pracy nie wpłyną na zapytanie.

Google chciałoby pokazać godziny zamknięcia (i godziny pracy), jeśli firma byłaby zamknięta, ale wydawało się, że godziny nie będą miały wpływu na obecność mapy w wynikach wyszukiwania.

Tylko dlatego, że firma jest zamknięta (lub bliska zamknięcia) nie oznacza, że wyszukujący nie jest zainteresowany jej fizyczną lokalizacją.

8. W jaki sposób Google określa pozytywne lub negatywne zmiany w eksperymentach z ludzkimi oceniającymi? Czy istnieje raport zwycięzców/przegranych według zapytań?

Google dysponuje raportem podsumowującym każdy eksperyment, pokazujący, jak eksperyment się przeprowadził, zgodnie z kilkoma różnymi danymi (które różnią się w zależności od eksperymentu), z których wszystkie obejmują wszystkie zaangażowane zapytania.

Istnieją klasyfikacje wygranych i przegranych. We wspomnianym wcześniej przykładzie — zapytaniu o nawóz, które wyświetlało mapę — zostało to zakwalifikowane jako wygrana. Ludzie przeglądają dane i wyniki. Jednak w tym przypadku Paul mówił o sobie, że łapie słabe wyniki, które są zgłaszane jako wygrana.

Paweł podkreśla, że ludzie oceniający są w zasadzie wspaniali, ale popełniają błędy. W szczególności ludzie oceniający są podekscytowani niektórymi funkcjami, nawet jeśli nie dodają one wartości.

9. Co się dzieje z Pandą i Pingwinem?

Paul nie ma odpowiedzi. Podkreśla, że zarówno Panda, jak i Pingwin są uwzględnieni w "pudełku" zdobywania punktów.

Danny przekierowuje uwagę na Gary'ego, który jest znany z tego, że w ciągu ostatnich sześciu miesięcy wielokrotnie powtarzał, że Penguin był bliski premiery. W rzeczywistości, Gary powiedział, że Penguin wystartuje przed nowym rokiem (styczeń 2016).

Oczywiście przewidywania Gary'ego się nie sprawdziły.

Gary informuje, że zrezygnował z zgłaszania czasu, kiedy Penguin wystartuje. Wie, że inżynierowie specjalnie nad tym pracują, ale po trzykrotnym pomyłce nie chce podać daty ani ram czasowych.

Paul ponownie wspomina o długim cyklu iteracyjnym uruchamiania nowych sygnałów i algorytmów rankingowych.

10: Mówiłeś o premierze, która trwała dwa lata. Czy to był pingwin?

Dwuletnia premiera, o której mówił Paul, nie była pingwinem.

Premiera była premierą w połowie rankingu, w połowie funkcji. Była to ich pierwsza próba korekty pisowni, która przejęła ponad połowę SERP, pokazując wyniki dla błędnej pisowni, zamiast funkcji „czy chodziło Ci o”.

Pierwsza uruchomiona iteracja tej funkcji wymagała znacznych przeróbek (prawdopodobnie w celu dopasowania do algorytmu).

11: Wspominasz ekspertyzę danego autora. W jaki sposób identyfikujesz i śledzisz autorytet autora tematów?

Paul nie może tutaj wchodzić w szczegóły. Jednak ludzie oceniający w eksperymentach mają za zadanie zrobić to ręcznie w przypadku oglądanych stron . Google porównuje własne metryki z tym, co znajdują ludzie oceniający, w ten sposób weryfikując (lub unieważniając) własne metryki.

12: Czy autorytet autora jest wykorzystywany jako bezpośredni czy pośredni czynnik rankingowy?

Nie ma prostej odpowiedzi: Paweł nie może powiedzieć tak lub nie. To bardziej skomplikowane, niż sugeruje pytanie.

13: Czy powinniśmy dalej zawracać sobie głowę rel=author?

Gary mówi, że jest co najmniej jeden zespół, który nadal bada użycie tagu rel=author.

Gary nie zalecałby tworzenia tagu dla nowych stron, ale także nie zalecałby pobierania tagu rel=author ze starych stron. Tag niczego nie zaszkodzi i może zostać użyty do czegoś w przyszłości.

14: Jak uniknąć uprzedzenia osób oceniających jakość do znajomości marki?

Ludzi oceniających przed eksperymentami prosi się o przeprowadzenie badań, ale Paul przyznaje, że często mają uprzedzenia.

Paul mówi, że istnieją metryki, które mają na celu przeciwdziałanie temu obciążeniu, i że te metryki nie są konkretnie w sygnale jakości.

Co ciekawe, Paul mówi bezceremonialnie: „Nie zacząłem analizować wszystkich wskaźników, na które faktycznie patrzymy”.

Wynika z tego, że istnieje wiele metryk wykraczających poza trafność i jakość, które są analizowane w ramach eksperymentów.

Paul podkreśla, że istnieje wiele małych witryn, które otrzymują ocenę jakości, „ponieważ oceniający wykonują dokładną pracę. Wydają się być dobrzy w rozwiązywaniu tego”.

15: Czy współczynnik klikalności (CTR) jest sygnałem rankingowym?

Paul potwierdza, że CTR jest używany w eksperymentach, a także w personalizacji.

Jednak metryka jest trudna w użyciu w każdych okolicznościach.

Gary wtrąca się, aby powiedzieć, że nawet w przypadku kontrolowanych grup trudno jest prawidłowo zinterpretować zaangażowanie.

Paul zgadza się, że wiele przeprowadzonych eksperymentów zawiera mylące dane na żywo. Przytaczany przez niego przykład to fragmenty, a także „Wskaźnik następnej strony”, o którym mowa w pytaniu nr 4.

Paul przytacza również długotrwały eksperyment na żywo, w którym zamieniono wyniki nr 2 i 4 w wynikach wyszukiwania. Został losowany i tylko dla 0,02% użytkowników. Wynik? Dużo więcej osób kliknęło wynik nr 1. Paweł wyjaśnia to:

„Widzą nr 1 – nie wiedzą, czy im się to podoba, czy nie – patrzą na dwa, co jest naprawdę dużo gorsze niż w przypadku nr 2, poddają się, ponieważ wynik, który powinien być na miejscu nr 4 i był faktycznie na 2 miejscu było tak źle, że kliknęli na 1 ”.
— Paul Haahr z SMX West 2016, wyjaśniający eksperyment Google na żywo prowadzący do niekonwencjonalnych wskaźników kliknięć.

Innym interesującym błędem przytaczanym przez Paula jest to, że pozycja nr 10 uzyskuje „o wiele więcej kliknięć” niż pozycje 8 i 9 razem. Czemu? Bo to ostatni wynik przed następną stroną i nikt nie chce klikać na następną stronę.

Mimo to #10 radzi sobie gorzej niż pozycja #7.

O co w tym wszystkim chodzi? CTR jest niezwykle trudnym do użycia sygnałem, często wynikiem dziwnych uprzedzeń i nieprzewidywalnych ludzkich zachowań .

16: Co teraz czytasz?

Paul czyta „dużo dziennikarstwa i bardzo mało książek”. Słucha także wielu audiobooków podczas podróży między San Francisco a Mountain View.

Książki Paweł wspomina:

Garth Risk Hallberg w ogniu
i Sinclair Lewis „ Tu nie może się wydarzyć” .

...i to jest okład!

Pytania? Uwagi? Myśli? Zostaw je poniżej!