Метрики доверия в Google

Опубликовано: 2019-05-02

Изучение показателей доверия в Google

Доверять! Какую роль он может играть в рейтинге страниц в Google? Он используется по-разному в поисковых системах, и в частности в Google. В Google только что был обновлен патент на доверие и рейтинг, поэтому сейчас самое время взглянуть на показатели доверия, разработанные в Google.

Я подумал о том, чтобы поделиться некоторыми метриками доверия, которые Google может использовать или использовал в прошлом, прежде чем обсуждать изменения в патенте, о котором я упоминаю.

Одно из упоминаний о доверии, которое быстро приходит в голову, - это то, что содержится в Рекомендациях оценщика качества Google, в которых экспертность, надежность и авторитетность указываются как три вещи, на которые оценщики должны обращать внимание при обзоре сайтов. Там нам говорят:

7.2.1 Самая низкая ЕРА
Одним из важнейших критериев рейтинга PQ является EAT. Опыт создателя MC и авторитетность или
надежность страницы или веб-сайта чрезвычайно важна для того, чтобы страница хорошо достигла своей цели.
Если EAT страницы достаточно низок, пользователи не могут или не должны использовать MC страницы. Особенно это касается YMYL.
темы. Если страница в высшей степени некомпетентная, неавторитетная или ненадежная, она не достигает своей цели.
Важно: Самый низкий рейтинг следует использовать, если страница крайне некомпетентная, неавторизованная или ненадежная.

Другой показатель доверия, о котором вы, возможно, не подозреваете, основан на доверии, - это версия PageRank, описанная в патенте, поданном Google, который сообщает нам о ранжировании страниц в зависимости от того, насколько они могут быть близки или удалены от набора надежных исходных сайтов. . В аннотации к этому патенту рассказывается, как рассчитываются рейтинги при таком подходе:

Во время работы система получает набор страниц для ранжирования, при этом набор страниц взаимосвязан ссылками. Система также получает набор начальных страниц, которые включают исходящие ссылки на набор страниц. Затем система назначает длину ссылкам на основе свойств ссылок и свойств страниц, прикрепленных к ссылкам. Затем система вычисляет кратчайшие расстояния от набора исходных страниц до каждой страницы в наборе страниц на основе длины ссылок между страницами. Затем система определяет рейтинг для каждой страницы в наборе страниц на основе вычисленных кратчайших расстояний. Затем система производит ранжирование для набора страниц на основе оценок ранжирования для набора страниц.

структура графа ссылок веб-страниц

Возможно, самая известная из метрик доверия, которая часто случайно приписывается Google или неправильно цитируется как похожая на то, что использует Google, принадлежит Yahoo, конкуренту Google, которая опубликовала в Стэнфорде статью о том, что они назвали Trustrank. TrustRank, разработанный Yahoo, полностью отличается от подхода, основанного на доверии, разработанного Google. Помимо написания статьи о TrustRank, они также подали патент (обнаружение спама на основе ссылок), который помешал бы Google на законных основаниях использовать тот же подход. Выписка из этого патента:

Реализуемый компьютером метод ранжирования результатов поиска в наборе результатов поиска. Реализуемый на компьютере способ включает получение запроса от пользователя и создание списка совпадений, связанных с запросом, где каждое из совпадений имеет отношение к запросу, где у совпадений есть один или несколько связанных документов, указывающих на совпадения, и где повышение связанных документов влияет на релевантность обращений к запросу. Метод связывает метрику с каждым из по меньшей мере подмножества совпадений, причем метрика представляет количество связанных документов, которые указывают на каждое из по меньшей мере подмножества совпадений и которые искусственно завышают релевантность совпадений. Затем метод сравнивает метрику, которая представляет размер спам-фермы, указывающей на попадание, с пороговым значением, обрабатывает список попаданий для формирования измененного списка, частично основанного на сравнении, и передает измененный список в Пользователь.

Yahoo TrustRank - это способ идентифицировать спам, а не обязательно ранжировать страницы, как это может делать новый подход к PageRank, о котором я упоминал выше. Патент Yahoo предоставляет более подробную информацию:

TrustRank - это метод анализа ссылок, связанный с PageRank. TrustRank - это метод отделения авторитетных, хороших страниц в Интернете от веб-спама. TrustRank основан на предположении, что хорошие документы в Интернете редко ссылаются на спам. TrustRank включает в себя два этапа: один - отбор семян, а второй - распространения баллов. TrustRank документа - это мера вероятности того, что документ является авторитетным (т. Е. Защищенным от спама).

Рейтинг доверия Yahoo

Есть и другие способы, которыми Google пытался использовать людей, которым доверял, в качестве экспертов, когда дело доходит до веб-страниц, например, проект Sidewiki от Google. Это не показатель доверия, но он был предназначен для того, чтобы люди могли комментировать страницы и либо добавлять к ним, либо соглашаться с ними, либо критиковать их.

Google закрыл проект ВикиКомментариев. Несмотря на то, что он больше не используется, он интересен тем, как он относится к доверию и опыту. Как описано в этой публикации блога Google: Помогайте и учитесь у других, просматривая веб-страницы: Google ВикиКомментарии:

Что, если бы у каждого, от местного эксперта до известного врача, был простой способ поделиться с вами своими мыслями о любой странице в Интернете? Что, если бы вы могли поделиться своими мыслями для других, кто проходит через это?

И Google также разработал метрику доверия, которая не основана на ссылках, но точность и правильность фактов не должны вызывать удивления.

В 2015 году вышел официальный документ Google, в котором рассказывается о так называемом доверии, основанном на знаниях, которое использует набор из 1000 фактов и сравнивает сайты, чтобы увидеть, сколько из этих фактов они исправили на своем сайте. Это был документ «Доверие, основанное на знаниях: оценка надежности веб-источников». Синь Луна Донг, которую считают изобретателем подхода к доверию, основанного на знаниях, выступил с презентацией под названием «Не оставлять ценные данные позади: безумные идеи и бизнес». Он исследует доверие, основанное на знаниях, и сравнивает его с PageRank, который хорошо отражен на этом слайде из презентации:

Доверие, основанное на знаниях, против PageRank

Существует более ранняя версия патента Google TrustRank, о которой я писал в 2009 году в публикации Google Trust Rank Patent Granted. Подробнее об этом ниже в этом посте.

Google Trustrank с использованием Google CSE

В рамках патентов CSE (системы пользовательского поиска), основанных на доверии, нам рассказывают о проблеме, которую они призваны решить:

Неотъемлемой проблемой при разработке поисковых систем является то, что релевантность результатов поиска конкретному пользователю зависит от факторов, которые сильно зависят от намерений пользователя при поиске - вот почему они ищут - а также от обстоятельств пользователя, фактов. о потребности пользователя в информации. Таким образом, учитывая один и тот же запрос двух разных пользователей, данный набор результатов поиска может быть релевантным для одного пользователя и нерелевантным для другого полностью из-за различных намерений и информационных потребностей. Большинство попыток решения проблемы вывода намерений пользователя обычно зависят от относительно слабых индикаторов, таких как статические предпочтения пользователя или предопределенные методы переформулирования запроса, которые представляют собой не что иное, как обоснованные предположения о том, что интересует пользователя, на основе условий запроса. Такие подходы не могут полностью уловить намерение пользователя, потому что такое намерение само по себе сильно варьируется и зависит от множества ситуационных фактов, которые нельзя экстраполировать из типичных условий запроса.

Таким образом, ценность набора результатов поиска зависит от намерения искателя, выполняющего этот поиск. Как эти патенты могут попытаться решить эту проблему? Решение может заключаться в просмотре сайтов, которые были созданы экспертами по теме, которые включают аннотации о том, почему что-то может быть связано, что описано в патенте здесь:

Отчасти из-за неспособности современных поисковых систем постоянно находить информацию, которая удовлетворяет информационные потребности пользователя, а не только условия запроса пользователя, пользователи часто обращаются к веб-сайтам, которые предлагают дополнительный анализ или понимание контента, доступного в Интернете. Для обсуждения эти сайты называются сайтами вертикальных знаний. Некоторые вертикальные веб-сайты знаний, обычно сайты сообществ для пользователей с общими интересами, позволяют пользователям ссылаться на контент в Интернете и предоставлять ярлыки или теги, описывающие контент. Например, сайт может позволить пользователю перейти по ссылке на сайт производителя автомобилей и разместить комментарий или описание конкретного автомобиля, предлагаемого производителем; аналогично, такой сайт может позволить пользователю сделать ссылку на новостной репортаж на веб-сайте новостной организации и разместить комментарий к отчету. Эти и другие вертикальные сайты знаний могут также содержать анализ и комментарии экспертов или других лиц, обладающих знаниями, опытом или точкой зрения в определенных областях, которые снова могут комментировать контент, найденный в Интернете. Например, веб-сайт, управляемый экспертом по цифровым камерам и посвященный цифровым камерам, обычно включает обзоры продуктов, инструкции по покупке цифровой камеры, а также ссылки на сайты производителей камер, объявления о новых продуктах, технические статьи, дополнительные обзоры или другие источники контента. Чтобы помочь пользователю, эксперт может включить комментарии к связанному контенту, например, пометив конкретную техническую статью как «экспертный уровень», или конкретный отзыв как «отрицательный профессиональный отзыв», или объявление о новом продукте как «новый цифровой 10 MP SLR ». Пользователь, интересующийся определенной точкой зрения, типом информации и т.п., затем выполняет поиск в домене такого сайта статей или ссылок, которые имеют определенные связанные ярлыки или комментарии. Например, пользователь может искать на вышеупомянутом сайте цифровых фотоаппаратов все обзоры фотоаппаратов с пометкой «цифровые SLR».

Итак, патент сообщает нам, что он может использовать аннотации из пользовательской поисковой системы, как если бы они были от экспертов по темам, которые эти поисковые системы собираются получить чувство доверия (метрика доверия или оценка) по тем темам, которые могут быть аннотированы. .

Когда я начал читать этот патент, мне было интересно, относится ли доверие к людям, создающим ярлыки в системах пользовательского поиска, только к результатам системы пользовательского поиска, или же это доверие каким-то образом применяется и к результатам общей поисковой системы. Патент указывает на эту проблему, говоря нам:

Проблема остается в том, что, когда пользователь возвращается к общей поисковой системе, за пределами вертикального сайта знаний, пользователь не может получить результаты поиска, которые отражают надежность самих документов или надежность любых комментариев или мнений, которые могут быть связаны с документы результатов поиска. Таким образом, никакая дополнительная информация, основанная на репутации, которая связана с пользователями на вертикальном сайте знаний, не доступна для общей поисковой системы, чтобы предоставлять более значимые результаты поиска другим пользователям.

Патент сообщает нам, что он может попытаться понять, насколько пользователи (или поисковики) доверяют объектам, которые применяют метки, аннотирующие другие страницы, чтобы определить, какой рейтинг доверия следует применить к результатам в общей поисковой системе. В патенте описаны некоторые способы определения того, насколько пользователи могут доверять объекту, который может маркировать результаты поиска. Вот один пример:

Как указано выше, система также может использовать поискового робота для проверки веб-страниц, чтобы найти информацию, указывающую, какой пользователь доверяет определенному объекту. При изучении веб-страниц поисковый робот может искать несколько взаимосвязей, включая: (1) ссылки с веб-страницы пользователя на веб-страницы, принадлежащие доверенным объектам; (2) список доверия, в котором указаны объекты, которым доверяет пользователь; или (3) список тщеславия, в котором указаны пользователи, доверяющие владельцу страницы тщеславия.

Рейтинг TrustRank для конкретного запроса (и метки) может быть агрегирован по более чем одной системе пользовательского поиска. Патент также сообщает нам:

Ранги доверия объектов, связанных с соответствующими метками, агрегируются для создания агрегированного ранга доверия. Таким образом, в этом примере ранги доверия трех разных экспертов будут объединены в один ранг доверия, связанный с конкретным ярлыком «профессиональный обзор» для обзорного документа. Это агрегирование выполняется для каждой метки, связанной с документом.

Короче говоря, если вы являетесь экспертом в какой-либо теме, вы можете настроить систему пользовательского поиска на своем сайте с помощью функции системы пользовательского поиска Google, и вы можете включать сайты, отличные от ваших, и вы можете пометить результаты поиска с помощью уточнения. этикетки.

Когда вы маркируете страницы с определенного сайта, вы можете указать Google, что доверяете этому сайту, и это может быть увеличено в результатах поиска на основе патента Google TrustRank (Google может определить, делают ли они это, основываясь на том, насколько они доверяют что вы можете иметь в качестве объекта, который маркирует страницы в CSE, и независимо от того, содержат ли они агрегированные аннотации из нескольких объектов.

Эта новая версия патента CSE Trust, выданная только на этой неделе, является продолжающимся патентом, что означает, что название и описание обоих патентов одинаковы, но формула каждого из них была переписана. Его можно найти по адресу:

Рейтинг результатов поиска на основе доверия
Изобретатели: Раманатан В. Гуха
Цессионарий: Google LLC
Патент США: 10,268,641.
Выдано: 23 апреля 2019 г.
Подана: 29 июля 2014 г.

Абстрактный

Система поисковой машины предоставляет результаты поиска, которые ранжируются в соответствии с мерой доверия, связанной с объектами, которые предоставили метки для документов в результатах поиска. Поисковая система получает запрос и выбирает документы, соответствующие запросу. Поисковая система также определяет метки, связанные с выбранными документами, и ранги доверия субъектов, предоставивших метки. Ранги доверия используются для определения факторов доверия для соответствующих документов. Факторы доверия используются для корректировки оценок информационного поиска документов. Затем результаты поиска ранжируются на основе скорректированных оценок поиска информации.

Претензии из патента TrustRank

Версия этого патента, поданная в мае 2006 г., также получила название «Ранжирование результатов поиска на основе доверия».

Вариант 1-й формулы из поданного патента 2006 г .:

1. Способ, выполняемый устройством обработки данных, содержащий: прием поискового запроса, причем поисковый запрос содержит термин запроса и термин метки запроса, причем термин метки запроса является категориальным идентификатором; идентификация одного или нескольких ресурсов в наборе результатов поиска в ответ на поисковый запрос, при этом каждый из одного или нескольких ресурсов имеет связанный термин метки соответствия, который соответствует термину метки запроса, и связанный термин несовпадающей метки, который не соответствует запросу термин метки, каждый связанный термин метки является категориальным идентификатором, описывающим каждый ресурс и связанным с ресурсом соответствующим объектом; определение для каждого из одного или нескольких ресурсов: ранга доверия объекта, который связал соответствующий термин совпадающей метки с ресурсом, при этом ранг доверия указывает, доверяет ли пользователь ассоциированному термину совпадающей метки ресурса, и повышение релевантности оценка каждого ресурса, имеющего связанный термин метки соответствия, на основе соответствующего ранга доверия, оценка релевантности указывает степень релевантности между соответствующим ресурсом и термином запроса; ранжирование каждого из одного или нескольких ресурсов в наборе результатов поиска на основе соответствующих оценок релевантности; аннотирование с помощью имени соответствующего объекта, который связал соответствующий термин метки с каждым ресурсом, указателей, идентифицирующих каждый ресурс из ранжированного набора результатов поиска; и предоставление знаков в ответ на поисковый запрос.

Это первая претензия из более новой версии патента:

Я утверждаю:

1. Реализуемый компьютером способ, содержащий: предоставление для отображения на первом вычислительном устройстве пользовательского интерфейса, связанного с конкретным объектом, причем пользовательский интерфейс содержит (i) интерактивный элемент управления, сконфигурированный для указания второму вычислительному устройству назначить оценку в ответ на взаимодействие пользователя с интерактивным элементом управления и (ii) интерфейс для пользователя, чтобы указать темы для конкретного объекта, интерфейс указывает множество тем, соответствующих интерактивному элементу управления; получение данных, указывающих (i) взаимодействие пользователя с интерактивным элементом управления со стороны пользователя и (ii) одну или несколько тем, выбранных пользователем из множества тем, соответствующих интерактивному элементу управления; в ответ на получение данных, указывающих (i) взаимодействие пользователя с интерактивным управлением пользователем и (ii) одну или несколько тем, выбранных пользователем из множества тем, соответствующих интерактивному управлению, отправка по сети, данные, которые указывают одну или несколько тем, которые были выбраны пользователем из множества тем, соответствующих интерактивному элементу управления, при этом данные заставляют второе вычислительное устройство присваивать оценку пользователю по отношению к конкретному объекту для одного или более тем, причем оценка показывает поисковой системе степень того, что контент, который (i) связан с конкретной сущностью и (ii) связан с одной или несколькими темами, используется поисковой системой для генерации результатов поиска в ответ на запросы пользователя; в ответ на запрос пользователя, получение набора результатов поиска для запроса, при этом набор результатов поиска ранжируется поисковой системой, по крайней мере частично, на основе оценки для пользователя по отношению к конкретному объекту для одного или несколько тем, которые были выбраны пользователем из множества тем, соответствующих интерактивному элементу управления, при этом набор результатов поиска содержит результаты поиска, каждая из которых ссылается на документ, для которого текст аннотации был отправлен одним или несколькими объектами, и при этом результаты поиска ранжируются на основе текста аннотации и оценок для пользователя по отношению к одному или нескольким объектам; и предоставление набора результатов поиска, ранжированных поисковой системой, по меньшей мере частично на основе оценки пользователя по отношению к конкретному объекту для одной или нескольких тем, которые были выбраны пользователем из множества тем, соответствующих интерактивное управление.

Согласно этому новому утверждению, он указывает результаты поиска, которые ранжируются на основе текста аннотации и оценки пользователя в отношении одного или нескольких объектов (которые могли аннотировать эти результаты).

Я хотел проверить, есть ли страницы поддержки Google, на которых описан процесс аннотирования сайтов для систем пользовательского поиска, и нашел эту страницу: Аннотации: определение сайтов для поиска

Выводы из патента Google CSE Trustrank

Это может быть хорошей причиной для установки на сайте системы пользовательского поиска и создания меток аннотаций для результатов внутри нее. В дополнение к этому было бы полезно сделать так, чтобы люди доверяли вашему сайту с помощью СПП в достаточной степени, чтобы делать что-то вроде ссылки на вас или указывать ваш сайт как надежный.

Метрики доверия и поиск

Есть несколько способов, которыми Google может попытаться найти надежность и доверительные отношения между поисковиками и владельцами сайтов. Мы видим примеры в описаниях EAT Руководства оценщика качества. В более новой версии PageRank, который может ранжировать страницы на основе их удаленности от надежного начального набора сайтов. В рейтинге доверия, основанном на знаниях, который может быть более полезным в тех случаях, когда правильность имеет большее значение, чем популярность. Или на основе аннотаций, сделанных в системах пользовательского поиска в Google от людей, которым поисковики могли проявить некоторый уровень доверия.

Укрепление доверия к вашему сайту имеет большее значение, чем просто то, как ваш сайт может занять место в результатах поиска. Если люди доверяют вашему сайту, они могут направлять людей на ваши страницы, ссылаться на ваши страницы и ссылаться на вас как на надежного эксперта.

Один из шагов в построении доверия - построить фундамент, на котором люди смогут решить, какое доверие они могут вам оказать, а затем поддержать этот фундамент разумным и знающим содержанием. Чтобы завоевать доверие, может потребоваться много усилий, а доверие может быстро испариться - но мы видим, что это то, что ценят поисковые системы и посетители веб-страниц.