Обновлен образец патента в поисковом рейтинге на основе больших наборов данных

Опубликовано: 2018-08-22

Модель поискового рейтинга и большие наборы данных

Следуя одному аспекту, совместимому с принципами изобретения, предоставляется способ ранжирования документов. Способ может включать в себя создание модели ранжирования поиска, которая предсказывает вероятность того, что документ будет выбран, и обучение модели ранжирования с использованием набора данных, который включает десятки миллионов экземпляров.

Еще в 2011 году я писал о патенте, выданном Google в 2007 году, о построении модели поискового ранжирования, использующей очень большой объем данных, о запросах, документах в Интернете и поисковиках. Пост, о котором я писал, был Google и крупномасштабными моделями данных, такими как Panda, а версия патента, о которой я писал тогда, была ранжированием документов на основе больших наборов данных.

Патент на эту модель Search Rankings был обновлен за счет использования патента на продолжение в третий раз. Два предыдущих патента на продолжение не были выданы, но последний был выдан, и его можно найти по ссылке под этим абзацем. Описание выглядит таким же, как в исходной версии, которая была подана в 2003 году. Формула изобретения была сильно переписана, и на нее стоит обратить внимание, потому что новые отражают, сколько усилий было вложено в этот патент. Новейшую версию патента поискового рейтинга можно найти по адресу:

Ранжирование документов на основе больших наборов данных
Изобретатели: Джереми Бем, Жорж Р. Харик, Джошуа Л. Левенберг, Ноам М. Шазир и Саймон Тонг.
Цессионарий: Google LLC
Патент США: 10,055,461.
Выдано: 21 августа 2018 г.
Подана: 31 июля 2015 г.

Абстрактный

Система ранжирует документы, по крайней мере частично, на основе модели ранжирования. Модель ранжирования может быть сгенерирована для прогнозирования вероятности того, что документ будет выбран. Система может принимать поисковый запрос и идентифицировать документы, относящиеся к поисковому запросу. Затем система может ранжировать документы на основе, по меньшей мере частично, модели ранжирования и формировать результаты поиска для поискового запроса из ранжированных документов.

Обновленные заявки в патенте на модель поискового рейтинга

Стоит сравнить формулы из самой ранней версии этого патента в поисковой выдаче с последней, чтобы понять, насколько она изменилась. Прочитав сообщение о первой версии, которое я написал ранее, также может быть полезно понять, что она охватывает. Я прилагаю копии первого пункта формулы изобретения для каждого из них, потому что они представляют собой существенный контраст в том, на что распространяются патенты.

В первоначальной версии патента первая формула намного короче и совсем не так подробна. Это говорит нам о:

1. Реализуемый компьютером способ, включающий: создание модели ранжирования, которая предсказывает вероятность того, что документ будет выбран, посредством: хранения информации, связанной с множеством предыдущих поисков, определения априорной вероятности выбора, основанной, по крайней мере частично, на информацию, связанную с предыдущими поисками, и создание модели ранжирования, основанной, по меньшей мере частично, на априорной вероятности выбора; обучение модели ранжирования с использованием набора данных, который включает примерно десятки миллионов экземпляров; идентификационные документы, относящиеся к поисковому запросу; оценка документов, по крайней мере частично, на основе модели ранжирования; формирование результатов поиска по поисковому запросу из оцененных документов; и вывод результатов поиска.

Сравните это утверждение с заявлением из последней версии патента на модель поискового ранжирования, которое гораздо более подробно:

Заявлено следующее:

1. Реализуемый компьютером способ, включающий: получение распределенной поисковой системой набора обучающих данных, содержащих множество обучающих экземпляров, каждый из которых идентифицирует соответствующий первый документ, выбранный конкретным пользователем, когда первый документ был идентифицирован в предоставленных результатах поиска. поисковой системой конкретному пользователю в ответ на конкретный поисковый запрос, выданный конкретным пользователем; разделение набора обучающих данных по множеству вычислительных устройств распределенной поисковой системы; создание распределенной поисковой системой модели ранжирования, которая дает вероятность того, что конкретный пользователь выберет конкретный документ, когда он будет идентифицирован одним или несколькими результатами поиска, предоставленными в ответ на конкретный поисковый запрос, представленный конкретным пользователем, включая обработку, посредством каждое вычислительное устройство из множества вычислительных устройств, обучающие экземпляры, назначенные вычислительному устройству, в том числе: выбор вычислительным устройством условия-кандидата, при этом условие-кандидат задает значения для одной или нескольких функций пользователя, одной или нескольких функций запроса, и одна или несколько характеристик документа, отправка вычислительным устройством каждому другому вычислительному устройству из множества вычислительных устройств запроса на вычисление локальной статистики для условия кандидата, получение вычислительным устройством от каждого другого вычислительного устройства одного или более других вычислительных устройств, соответствующая вычисленная статистика для условия-кандидата, вычисленная другими вычислительными устройствами. наоборот, используя значения локальных обучающих экземпляров, назначенных другому вычислительному устройству, вычисляя вычислительным устройством вес для условия-кандидата в соответствии с вычисленной статистикой, полученной от одного или нескольких других вычислительных устройств для условия-кандидата; определение вычислительным устройством того, что новое правило, содержащее условие кандидата и вычисленный вес, должно быть добавлено к модели ранжирования, и в ответ добавление нового правила к модели ранжирования и предоставление вычислительным устройством друг другу вычислительное устройство из множества вычислительных устройств, указание того, что новое правило, содержащее условие кандидата и вычисленный вес, должно быть добавлено к модели ранжирования; получение поискового запроса, отправленного первым пользователем; получение множества результатов поиска, которые удовлетворяют поисковому запросу, при этом каждый результат поиска идентифицирует соответствующий документ из множества документов; определение одной или нескольких характеристик первого пользователя и одной или нескольких характеристик поискового запроса, представленного первым пользователем; использование одной или нескольких функций первого пользователя и одной или нескольких функций поискового запроса в качестве входных данных для модели ранжирования для вычисления для каждого документа, идентифицированного результатами поиска, соответствующей вероятности того, что первый пользователь выберет документ, когда предоставляется в ответ на поисковый запрос; и ранжирование множества результатов поиска на основе соответствующей вычисленной вероятности для каждого документа, вычисленная вероятность для каждого документа представляет собой вероятность того, что первый пользователь выберет документ, когда он предоставлен в ответ на поисковый запрос.

Утверждение говорит нам, что модель ранжирования поиска включает в себя функции о пользователях, о запросах и о ранжированных документах. Это лишь некоторые из особенностей, указанных в новых претензиях:

  • Язык первого пользователя
  • Один или несколько предыдущих запросов, отправленных первым пользователем
  • Количество раз, когда первый пользователь обращался к определенному документу.
  • Язык запроса
  • Один или несколько условий запроса
  • Один или несколько вторых документов, которые не выбирал конкретный пользователь.
  • Данные, представляющие позицию выбранного первого документа в порядке результатов поиска, предоставленных в ответ на конкретный запрос.
  • Количество документов, ранжированных выше выбранного первого документа в результатах поиска, предоставленных конкретному пользователю в ответ на конкретный поисковый запрос.
  • Местоположение первого пользователя
  • В новой версии патента есть и другие пункты формулы, которые стали намного длиннее, и поэтому их стоит рассмотреть и обратить на них внимание.

    Первая версия патента действительно говорит нам, что обращает внимание на множество различных экземпляров данных, разбитых на тройки, о том, чем отличаются искатель, запрос и документ. Как я уже сказал в своем первом посте об исходном патенте:

    В первом патенте Google построенная модель рассматривала комбинацию данных от пользователей, запросов, которые они использовали, и документов, которые они могли или не могли выбрать. Каждая из этих комбинаций называется «экземпляром». Экземпляр - это «тройка» данных: (u, q, d), где u - информация пользователя, q - данные запроса от пользователя, а d - информация документа, относящаяся к страницам, возвращенным из данных запроса.

    Выводы об обновлении патента на модель поискового рейтинга

    Недавно в Google было проведено крупное обновление ядра, как описано в статье Google Подтверждает широкое обновление основного алгоритма: факты и советы. Мы знаем, что Google уже давно обновляет свои основные алгоритмы поиска, возможно, 2 раза в день. Мы не знаем, когда могли быть применены обновления, отраженные в новой версии этого патента модели поискового ранжирования, но это могло быть связано с тем, что в качестве дополнительного патента он в идеале отражал бы изменения в процессе, лежащем в основе патента, который со временем могли быть внедрены в алгоритм. Если бы Google использовал этот подход для ранжирования страниц, его можно было бы рассматривать как часть основного алгоритма поиска. Этот патент рассматривает очень большой объем данных, включающих запросы пользователей и документы, для определения поискового рейтинга.