Неужели в Google только что вышло обновление о сурке?

Опубликовано: 2017-02-08

Обновление сурка

История, опубликованная на сайте Search Engine Land несколько дней назад, проинформировала нас о возможном новом алгоритме в Google: неподтвержденное обновление алгоритма Google может лучше учитывать ссылки и спам. Прежде чем я прочитал этот пост, я только что прочитал новый патент Google, и он напомнил мне о патенте. Патент был выдан 31 января 2017 года, и вполне возможно, что то, что описано в патенте, может быть тем, что люди испытали в обновлении, опубликованном на Search Engine Land.

Алгоритм, лежащий в основе патента, основан на рейтинге, который включает в себя количество ресурсов, которые могут ссылаться на ресурс, который может быть оценен (например, Стэнфордский патент PageRank). Исторически сложилось так, что в Google страница с большим количеством ресурсов, на которые ссылаются, может иметь более высокий рейтинг, чем другие страницы, которые имеют меньшее количество ресурсов, ссылающихся на нее. Но что, если Google решит внимательнее присмотреться к этим ресурсам и понизить вес рейтинга, которым они пользуются? Мы видели признаки того, что Google может делать что-то подобное в патенте Reasonable Surfer Patent, в котором ссылки проходили через разное количество PageRank. Другой способ изменить количество PageRank, которое может передаваться вместе со ссылкой, может основываться на объеме трафика, который ресурс может получить по ссылкам, и времени ожидания трафика от этих ссылок, будь то короткие клики, средние клики или долгие щелчки.

Этот подход к связыванию может также учитывать другие аспекты ссылок, такие как текст привязки для ссылки, указывающей на исходный ресурс, который он будет рассматривать как н-грамм и назначит исходную оценку для этого текста привязки, используемого для ссылки на страницу. .

Это было интересное утверждение, с которым я столкнулся в первый раз, когда прочитал только что выданный патент:

Ранжирование результатов поиска может быть скорректировано в зависимости от склонности поискового запроса к отображению результатов поиска, связанных со спамом. Взвешивание количества ссылок на ресурсы в процессе ранжирования может быть уменьшено для поисковых запросов, которые имеют высокую склонность к отображению результатов поиска, связанных со спамом, чтобы уменьшить перекос в ранжировании ресурсов, вызванный тем, что некоторые ресурсы имеют непропорционально большое количество ссылок по сравнению с количеством подборки ссылок.

Патент сообщает нам, что он имеет ряд преимуществ, которые могут сделать его полезным, включая дисконтирование некоторых ссылок в рейтинге страниц, на которые они ссылаются.

Преимущества этого запатентованного процесса

1) Результаты поиска ресурсов можно более точно ранжировать, используя данные о ссылках на ресурсы и выбор этих ссылок.
2) Начальная оценка может быть определена для ресурса на основе количества ссылок на ресурс, содержащихся в других ресурсах, и количества вариантов выбора этих ссылок.
3) Могут быть идентифицированы исходные ресурсы, которые включают ссылки на ресурсы, которые имеют непропорционально большое количество ссылок по сравнению с количеством вариантов выбора, как указано начальными оценками для этих ресурсов.
4) Ссылки из этих идентифицированных исходных ресурсов могут быть исключены в процессе ранжирования, который ранжирует ресурсы на основе количества ссылок на ресурс.
5) Ресурсы, для которых данные о ссылках недоступны или недостаточны, могут быть оценены с использованием данных о ресурсах, которые включают ссылку на ресурс.

Патент, о котором я пишу, можно найти здесь, и с ним стоит потратить некоторое время:

Определение меры качества для ресурса
Изобретатели: Хён-Джин Ким, Пол Хаар, Кин Нг, Чунг Тин Квок, Мустафа А. Хаммад и Сушрут Каранджкар.
Цессионарий: Google
Патент США: 9,558,233.
Выдано: 31 января 2017 г.
Подана: 31 декабря 2012 г.

Абстрактный:

Способы, системы и устройства, включая компьютерные программы, закодированные на компьютерном носителе данных, для определения меры качества ресурса. В одном аспекте способ включает в себя определение начальной оценки для каждого начального ресурса в наборе. Начальная оценка для начального ресурса может быть основана на количестве ресурсов, которые включают ссылку на начальный ресурс и количество выбранных ссылок. Идентифицируется набор исходных ресурсов. Оценка источника определяется для каждого исходного ресурса. Оценка источника для исходного ресурса основана на начальной оценке для каждого исходного ресурса, с которым связан исходный ресурс. Ресурсы, на которые есть ссылка на источник, определены. Оценка ресурса определяется для каждого ресурса, на который есть ссылка на источник. Оценка ресурса для ресурса, на который есть ссылка на источник, может быть основана на оценке источника для каждого исходного ресурса, который включает ссылку на ресурс, на который имеется ссылка.

Понижение рейтинга из-за большого количества ссылок, которые не производят много трафика.

Это был еще один отрывок из патента, который поразил меня, потому что он указывал на потенциально вредные результаты для ссылок, которые не соответствовали ожиданиям, которые могут быть выполнены для них:

Система может определять меру качества для конкретного веб-ресурса на основе количества других ресурсов, которые ссылаются на конкретный веб-ресурс, и объема трафика, который получает ресурс. Например, процесс ранжирования может ранжировать первую веб-страницу, которая имеет большое количество других веб-страниц, которые ссылаются на первую веб-страницу, выше, чем веб-страница, имеющая меньшее количество связанных веб-страниц. Однако некоторые ресурсы могут быть связаны с большим количеством других ресурсов, получая при этом небольшой трафик по ссылкам. Например, организация может попытаться сыграть в процесс ранжирования, включив ссылку на ресурс на другой веб-странице. Такое большое количество ссылок может исказить рейтинг ресурсов. Чтобы предотвратить такой перекос, система может оценить «несоответствие» между количеством связывающих ресурсов и трафиком, генерируемым к ресурсу из связывающих ресурсов. Если с ресурсом связано несколько ресурсов, которые непропорциональны по отношению к трафику, полученному с использованием этих ссылок, этот ресурс может быть понижен в рейтинге в процессе ранжирования.

Как можно определить трафик по ссылке?

Оценка ресурсов может выполняться методом «тяни-толкай». В примере процесса pull-push начальная оценка определяется для каждого из набора начальных ресурсов, для которого доступны достаточные данные о канале связи и трафике. Начальная оценка для конкретного начального ресурса основана на количестве исходных ресурсов, которые связаны с начальным ресурсом, и объеме трафика, сгенерированного для ресурса из исходных ресурсов. В некоторых реализациях начальная оценка для конкретного ресурса представляет собой соотношение между количеством выбранных ссылок на конкретный ресурс и количеством исходных ресурсов, которые ссылаются на конкретный ресурс.

Эти начальные оценки «подтягиваются» к исходным ресурсам и используются для определения исходной оценки для каждого исходного ресурса. В некоторых реализациях исходная оценка для исходного ресурса основана на начальной оценке для каждого исходного ресурса, с которым связан исходный ресурс. Эти оценки источников можно использовать для классификации каждого исходного ресурса как «квалифицированного источника» или «неквалифицированного источника».

Ссылки из источников, которые могут быть определены как неквалифицированные, могут быть затем сброшены.

Ресурсы, связанные со спамом

Некоторые запросы, как правило, создают больше спама, чем другие. Патент, в частности, указывает на одну группу:

Например, издатели многих веб-сайтов для обмена видео пытаются манипулировать рейтингом, создавая ссылки на сайты, что приводит к непропорционально большому количеству ссылок по сравнению с количеством выбранных, в то время как национальные новостные веб-сайты обычно не предпринимают таких манипуляций.

Для запросов, которые часто приводят к большему количеству спама, щелчки выбора могут иметь большее значение в этом расчете ссылок по сравнению с трафиком, отправляемым этими ссылками:

Для запросов, которые имеют высокую склонность к просмотру веб-страниц, связанных со спамом, при ранжировании результатов поиска система может придавать больший вес количеству выбора для результатов поиска и меньший вес - количеству ссылок на ресурсы для результатов поиска. Таким образом, можно сказать, что система «доверяет» количеству кликов больше, чем подсчету ссылок на ресурсы для поисковых запросов, которые имеют склонность к просмотру веб-страниц, связанных со спамом.

Оценка качества отбора может основываться на времени ожидания

Часть процесса, связанная с вычислением оценки качества для ресурсов, включает определение начальной оценки для исходного ресурса. Это может начаться с определения счетчика ресурсов ссылки для исходного ресурса. Это можно сделать, посмотрев на количество ресурсов, которые включают ссылку на начальный ресурс.

Следующим аспектом этого является определение счетчика выбора для начального ресурса. Этот счетчик выбора для начального ресурса может быть основан на том, сколько раз была выбрана ссылка (-ы) на начальный ресурс, которые включены в другие ресурсы.

Оценка качества выбора определяется по крайней мере для части выбора ссылок на исходный ресурс. Оценка качества выбора для выборки является мерой качества для выбора и может использоваться для дисконтирования выборок с низким качеством при определении начальной оценки для исходного ресурса.

Это навевает воспоминания о книге Стивена Леви под названием In the Plex, в которой он заявил, что один показатель, который люди в Google часто воспринимали положительно, - это показатель, который они называли «длинным щелчком».

Патент сообщает нам:

Оценка качества выбора может быть выше для выбора, который приводит к длительному времени ожидания (например, больше порогового периода времени), чем оценка качества выбора для выбора, который приводит к короткому времени задержки (например, меньше порогового времени период). Поскольку автоматически сгенерированные выборки ссылок часто бывают непродолжительными, учет времени ожидания при определении начального балла может учитывать эти ложные выборки ссылок.

Патент также сообщает нам, что некоторые исторические особенности выбора могут указывать на то, что выбор был сделан реальными пользователями, а не каким-то автоматическим процессом.

Ресурсы с относительно низкими оценками ресурсов могут быть понижены в рейтинге, а ресурсы с высокими оценками ресурсов могут быть повышены в рейтингах.

Выводы

В патенте содержится гораздо больше подробностей, чем в этом посте, и его настоятельно рекомендуется прочитать. Я могу вспомнить первую попытку установить какие-то оценки качества для ссылок, которые указывают на страницы в Интернете, и определить, какой вес они должны иметь. Патент разумного серфера отличался тем, что он определял, какой вес может передать ссылка, основываясь на вероятности того, что она важна, на основе особенностей, связанных с тем, как (и где) она была представлена на странице.

Я упомянул в Твиттере, что буду писать о публикации Search Engine Land, упомянутой в начале этой публикации, и что у меня было предположение относительно того, что могло быть реализовано, что привело бы к изменению алгоритма в Google, в результате чего ряд люди заметили. У меня было предложение от Джонатана Хохмана, что я рассматриваю его как «Обновление сурка», учитывая время, и что оно, похоже, вступит в силу в начале февраля. Этот патент был выдан в последний день января, и хотя он мог быть реализован раньше, не исключено, что он также мог быть введен в действие в начале февраля.

Было ли то, что происходило в Google алгоритмически, взвешиванием связывания ресурсов на основе связанного с ними трафика, или были ли они связаны с результатами рассылки спама?