Вопросы и ответы Пола Хаара, рейтингового инженера Google, SMX West 2016

Опубликовано: 2021-10-08

Недавно отрасль SEO получила редкую прозрачность и проницательность от сотрудника Google. В частности, член их инженерного подразделения рейтинга: человек, который вносит непосредственный вклад в алгоритм Google.

Пол Хаар, инженер-программист в Google в течение последних 14 лет, в марте на SMX West выступил с презентацией о том, как работает Google, с точки зрения рейтингового инженера. Несколько репортажей:

Полное видео здесь.
Мое освещение и мысли здесь.
Репортаж Рэй Хоффман здесь (не пропустите комментарии!).
Полный текст презентации Ричарда Бакстера.

Этот пост будет охватывать вопросы и ответы Дэнни Салливана, которые вели с Полом после его презентации, к которой присоединился Гэри Айлс, аналитик тенденций для веб-мастеров в Google. Полное видео ниже:

В Q&A было задано 16 вопросов. Давайте рассмотрим их по одному.

Примечание: я перефразирую ответы, основываясь на собственном понимании. Если вы хотите посмотреть полный ответ, предлагаю вам посмотреть видео. В каждый вопрос встроено видео, в котором Дэнни задает вопрос.

1. Осколки входят в общий индекс в разных местах?

Индекс - это сумма всех шардов вместе.

У Google есть большая сеть очень больших машин, и они выбирают размеры осколков, чтобы заполнить эти очень большие машины. Похоже, что осколки - это способ Google решить проблему масштабирования, сделав размер индекса управляемым.

2. Как во все это вписывается RankBrain?

RankBrain предоставляет определенные подмножества сигналов в алгоритме (неясно, какие сигналы).
RankBrain - это система машинного обучения (глубокое обучение? Пол поправляет себя на глубокое обучение), которая имеет свои собственные идеи о том, как комбинировать сигналы и понимать документы.
Google понимает, как работает RankBrain (после больших усилий), но не понимает, что именно он делает.
RankBrain использует многое из того, что Google опубликовал о глубоком обучении.
Один из уровней того, что делает RankBrain, - это word2vec и встраивание слов.
RankBrain запускается после поздней фазы после получения запроса в жизни запроса. (Павел называет это «ящиком»).

3. Как RankBrain узнает авторитет страницы? Как узнать качество?

RankBrain имеет надежные данные для обучения, призванные улучшить эту функциональность. Он видит сигналы в дополнение к запросам и веб-страницам.

Для меня это звучит так, как будто RankBrain не должен определять авторитет или качество страницы. Эта информация уже подана.

4. Какие конверсионные цели ставит Google при тестировании усовершенствований алгоритмов ранжирования? Есть ли согласованные цели, по которым измеряются все обновления?

Раньше у Google была метрика под названием «Скорость следующей страницы», которая в основном измеряла, как часто люди переходят на вторую страницу результатов. Идея первой страницы не принесла хороших результатов. Однако этим можно легко манипулировать.

В частности, пустое пространство снизит вероятность того, что люди перейдут на вторую страницу поиска.

[вырезка в видео]

Примечание: аналогичный вопрос задается позже, на отметке 8:50. Прокрутите вниз до вопроса № 8, чтобы увидеть видео и ответ.

5. Первое, что вы делаете, - это определяете, содержит ли запрос сущность. Вы сделали это пять лет назад?

Это началось в то же время, что и «Сеть знаний» и «Панели знаний». Это ключ к этим процессам.

Google не делал этого до того, как запустил сеть знаний в 2011 году.

6. Если кто-то вошел в какое-либо приложение Google, выделяете ли вы информацию, которую собираете? Может ли использование Google Now и Google Chrome повлиять на поиск?

Реальный вопрос в том, вошли вы в систему или нет.

Если вы вошли в систему, Google вносит персонализацию поиска. Google хочет предоставить пользователям единообразный поиск на основе ваших интересов, а также того, что отображается в подсказках Google Now.

Пока вы вошли в систему и не отключили персонализацию поиска, у вас будет персонализация поиска.

У вас больше шансов, что поиск будет следовать за вами на всех ваших устройствах, чем закладки.

7. Предоставляет ли Google разные результаты по одному и тому же запросу в разное время в течение дня? Местные карты меняются в зависимости от рабочего времени.

Ни Пол, ни Гэри не были уверены, хотя оба, похоже, думали, что часы работы не повлияют на запрос.

Google сделал бы обязательным показывать часы закрытия (и часы работы), если предприятие было закрыто, но никто, похоже, не думал, что часы будут влиять на то, присутствует ли карта в результатах поиска.

Просто потому, что компания закрыта (или близка к закрытию), это не означает, что поисковика не интересует их физическое местонахождение.

8. Как Google определяет положительные или отрицательные изменения в экспериментах с людьми-оценщиками? Есть ли отчет о победителях / проигравших по запросам?

У Google есть сводный отчет по каждому эксперименту, как эксперимент проводился в соответствии с набором различных показателей (которые различаются в зависимости от эксперимента), и все они включают каждый задействованный запрос.

Есть классификации побед и поражений. В ранее упомянутом примере - запрос удобрений с отображением карты - это было классифицировано как выигрыш. Люди просматривают метрики и результаты. Однако в этом случае Пол называл себя поймавшим плохие результаты, которые были объявлены победой.

Пол подчеркивает, что люди-оценщики в целом велики, но делают ошибки. В частности, люди-оценщики восхищаются определенными функциями, даже если они не добавляют ценности.

9. Что происходит с Пандой и Пингвином?

У Пола нет ответа. Он действительно подчеркивает, что и Панда, и Пингвин учтены в «блоке» подсчета очков и поиска.

Дэнни перенаправляет внимание на Гэри, печально известного тем, что за последние шесть месяцев он неоднократно заявлял, что Penguin был близок к запуску. Фактически, Гэри сказал, что Penguin выйдет на рынок до нового года (января 2016 года).

Очевидно, прогнозы Гэри не оправдались.

Гэри сообщает, что он перестал сообщать время, когда выйдет Penguin. Он знает, что инженеры специально работают над этим, но, ошибившись трижды, он не хочет называть дату или временные рамки.

Пол снова упоминает длинный цикл итераций по запуску новых сигналов и алгоритмов ранжирования.

10: Вы говорили о запуске, которое заняло два года. Это был пингвин?

Двухлетний запуск, о котором говорил Пол, не был Penguin.

Запуск был наполовину ранжированным, наполовину функциональным. Это была их первая попытка исправления орфографии, которая заняла более половины результатов поиска, показывая результаты с ошибкой написания вместо функции «вы имели в виду».

Первая запущенная итерация этой функции потребовала значительных изменений (предположительно, чтобы вписаться в алгоритм).

11: Вы упоминаете опыт данного автора. Как вы определяете и отслеживаете авторитет авторов тем?

Пол не может здесь вдаваться в подробности. Тем не менее, в экспериментах человекам-оценщикам поручено делать это вручную для страниц, которые они видят . Google сравнивает свои собственные показатели с тем, что находят люди-оценщики, тем самым подтверждая (или аннулируя) свои собственные показатели.

12: Используется ли авторитет автора как прямой или косвенный фактор ранжирования?

На этот вопрос нет простого ответа: Пол не может сказать «да» или «нет». Это сложнее, чем следует из вопроса.

13: Следует ли нам продолжать возиться с rel = author?

Гэри говорит, что есть по крайней мере одна команда, которая продолжает изучать использование тега rel = author.

Гэри не рекомендовал бы создавать тег для новых страниц, но также не рекомендовал бы извлекать тег rel = author со старых страниц. Тег ничему не повредит, и он может быть использован для чего-то в будущем.

14. Как избежать предвзятого отношения к бренду у оценщиков?

Людей-оценщиков перед экспериментами просят провести исследование, но Пол признает, что они часто имеют предвзятость.

Пол говорит, что существуют метрики, которые призваны противодействовать этому смещению, и что эти метрики конкретно не входят в сигнал качества.

Интересно, что Пол небрежно говорит: «Я еще не начал изучать все показатели, на которые мы действительно смотрим».

Таким образом, подразумевается, что существует множество показателей, помимо релевантности и качества, которые рассматриваются в рамках экспериментов.

Пол подчеркивает, что есть много небольших сайтов, которые получают оценку качества, «потому что оценщики делают тщательную работу. Они, кажется, хорошо разбираются в этом».

15. Является ли рейтинг кликов (CTR) сигналом ранжирования?

Пол подтверждает, что CTR используется в экспериментах, а также в персонализации.

Однако эту метрику сложно использовать в любых обстоятельствах.

Гэри вмешивается, чтобы сказать, что даже с контролируемыми группами трудно правильно интерпретировать взаимодействие.

Пол согласен с тем, что многие проведенные эксперименты дают неверные живые метрики. В качестве примера он приводит фрагменты, а также «Скорость следующей страницы», упомянутые в вопросе №4.

Пол также ссылается на давний эксперимент, который поменял местами результаты №2 и №4 в результатах поиска. Он был рандомизирован и только для 0,02% пользователей. Результат? Еще больше людей нажали на результат №1. Павел объясняет это:

«Они видят №1 - они не знают, нравится им это или нет - они смотрят на два, что на самом деле намного хуже, чем было №2, они сдаются, потому что результат, который должен был быть на №4, был на самом деле на №2 было так плохо, что они нажимают на №1 ».
- Пол Хаар на SMX West 2016, объясняя эксперимент Google в реальном времени, который привел к нетрадиционным показателям кликов.

Еще одно интересное предубеждение, которое цитирует Пол, заключается в том, что позиция № 10 получает «намного больше кликов», чем позиции № 8 и № 9 вместе взятые. Почему? Потому что это последний результат перед следующей страницей, и никто не хочет переходить на следующую страницу.

Тем не менее, №10 работает хуже, чем позиция №7.

Смысл всего этого? CTR - чрезвычайно сложный сигнал для использования, часто являющийся результатом странных предубеждений и непредсказуемого человеческого поведения .

16: Что ты сейчас читаешь?

Пол читает «много журналистики и очень мало книг». Он также слушает множество аудиокниг о поездках между Сан-Франциско и Маунтин-Вью.

Книги, которые Павел упоминает:

Гарт Риск Город Халлберга в огне
и « Этого не может быть здесь» Синклера Льюиса.

... и это конец!

Вопросов? Комментарии? Мысли? Оставьте их внизу!