Краудсорсинговая оценка результатов кластерного поиска
Опубликовано: 2019-07-10Только что был получен патент Google на ранжирование программных приложений с использованием кластеризации и краудсорсингового подхода к оценке результатов поиска с наилучшей кластеризацией. Оценка краудсорсинга будет предоставлена такими источниками, как Mechanical Turk.
Этот подход предназначен не только для программных приложений, но и для:
- Товары, продаваемые на торговой площадке
- Документы доступны по сети
- Песни в музыкальном онлайн-магазине
- Изображения в галерее
- И Т. Д.
Проблема с кластеризацией результатов поиска
Причина, по которой будут использоваться кластерные результаты поиска, будет заключаться в том, чтобы отвечать на запросы, которые могут возвращать большое количество ответных элементов. Нам говорят, что автоматическая кластеризация, генерируемая алгоритмами, не всегда дает высококачественные кластеры. В ответ на это, ручная оценка и уточнение результатов кластеризации экспертами может повысить качество результатов поиска, но также может быть медленным и не может масштабироваться для большого количества запросов. Это проблема, которую призван решить этот патент.
Кластерные результаты поиска как решение
Процесс, лежащий в основе этого патента, включает создание улучшенной системы оценки краудсорсинга и масштабируемого уточнения результатов кластерного поиска.
Он начинается с того, что система генерирует наборы кластеров для запроса с использованием различных алгоритмов кластеризации.

Затем эти кластерные наборы будут представлены группе краудсорсинговых работников в случайном порядке.

Рабочие будут взаимодействовать с пользовательским интерфейсом, который представляет кластерные наборы результатов рабочим, чтобы получать оценки от этих рабочих для каждого набора кластеров независимо от других наборов. Каждая оценка фокусируется на качестве каждого кластера, а не на сравнении кластеров друг с другом.
Оценка создается для каждого кластера на основе оценки этого кластера, включая:
- Приведенные рейтинги
- Время, потраченное на выставление оценок
- Доступ к дополнительной информации
- И Т. Д.
Оценка может использоваться для определения на основе оценки нескольких ответов работников, какой алгоритм кластеризации дал лучший набор кластеров для запроса.
Это не те оценщики, которые оценивают результаты поиска в соответствии с рекомендациями Google Quality Rater's Guidelines. Я никогда не видел, чтобы эти люди-оценщики выполняли такую задачу, как оценивание кластеров результатов поиска.
Уточнение кластеризации результатов поиска
В дополнение к оценке кластеров результатов поиска, патент также сообщает нам, что эти краудсорсинговые сотрудники могут предлагать изменения и уточнения в кластере, который был определен как лучший. Во время краудсорсинговой оценки рабочие могут предлагать изменения в соответствии с серией уточняющих задач.
Задачи уточнения могут включать:
- Объединение двух слишком похожих кластеров
- Удаление кластера, который не подходит другим
- Удаление объекта / темы из кластера
- Удаление определенного элемента поиска из кластера
- Перемещение объекта или элемента поиска из одного кластера в другой кластер
Нам также говорят, что:
Если предлагаемое уточнение соответствует порогу согласования для задач, система может автоматически выполнить уточнение, изменив определение кластера, и / или может сообщить об уточнении эксперту.
Тестирование набора кластеров
Каждый из наборов кластеров может представлять другой алгоритм кластеризации. Набор случайным образом рассылается краудсорсинговым работникам, и они оценивают этот кластер. Эти рейтинги объединяются для получения баллов для этих кластеров.
Метод также включает в себя сохранение определения набора кластеров для набора кластеров с наивысшей оценкой набора кластеров, определение набора кластеров связано с запросом и использование после получения запроса на запрос определения набора кластеров для инициирования отображения элементов поиска. реагирует на запрос.

Преимущества этого подхода к кластеризации результатов поиска
Эти реализации могут использоваться для реализации одного или нескольких из следующих преимуществ.
- Система предоставляет способ определить, какой алгоритм кластеризации дает наилучшие результаты кластеризации запросов для отдельных запросов. Это обеспечивает лучший пользовательский интерфейс для пользователей, просматривающих результаты.
- Оценка и рейтинг являются масштабируемыми (например, могут обрабатывать сотни или тысячи запросов), потому что они зависят от задач краудсорсинга, а не от экспертов.
- Система обеспечивает максимальное качество за счет занижения оценок работников краудсорсинга, которые не уделяют достаточно времени задаче и / или не обладают достаточным опытом (например, знакомы с запросом и элементами поиска).
- Система также максимизирует качество, представляя разные наборы кластеров случайным образом разным работникам, чтобы избежать предвзятости рабочего тратить больше времени на первый представленный набор.
- Попросив работника оценить каждый кластер перед оценкой всего набора кластеров, система поощряет оценку каждого кластера.
- Система предоставляет максимальное количество высококачественных или важных элементов поиска для каждого кластера, чтобы помочь работнику краудсорсинга оценить избыточность между кластерами в наборе кластеров.
- Система способствует достижению консенсуса по уточнению наборов кластеров, таким как слияние двух кластеров в наборе кластеров, удаление кластера из набора кластеров или удаление определенных тем или элементов поиска из кластера, и может автоматически вносить изменения в определение набора кластеров. когда минимальное количество рабочих рекомендует такую же доработку
Патент на кластеризацию результатов поиска можно найти по адресу:
Краудсорсинговая оценка и уточнение поисковых кластеров
Изобретатели: Цзилинь Чен, Эми Сянь Чжан; Сагар Джайн, Личан Хонг и Эд Хуай-Синь Чи
Цессионарий: GOOGLE LLC
Патент США: 10,331,681.
Выдано: 25 июня 2019 г.
Подана: 11 апреля 2016 г.Абстрактный
Реализации предоставляют улучшенную систему для представления результатов поиска на основе ассоциаций сущностей элементов поиска. Примерный способ включает в себя для каждого из множества работников краудсорсинга инициирование отображения первого случайно выбранного набора кластеров из множества наборов кластеров для работника краудсорсинга. Каждый набор кластеров представляет собой отдельный алгоритм кластеризации, применяемый к набору элементов поиска, отвечающих на запрос. Метод также включает получение рейтингов кластеров для первого набора кластеров от работника краудсорсинга и вычисление баллов набора кластеров для первого набора кластеров на основе рейтингов кластеров. Это повторяется для остальных наборов кластеров во множестве наборов кластеров. Метод также включает в себя сохранение определения набора кластеров для набора кластеров с наивысшей оценкой, связывание определения набора кластеров с запросом и использование определения для отображения элементов поиска в ответ на запрос.
Выводы по оценке краудсорсинга
Я нашел этот патент интересным, потому что в нем были задействованы люди-оценщики, которые не ранжировали результаты поиска, а вместо этого оценивали и уточняли лучшие кластеры результатов поиска. Кластеры основаны на различных алгоритмах кластеризации, и патент мало что говорит нам о том, как эти алгоритмы кластеризации могут работать. Место, где вы, возможно, видели кластеризацию результатов поиска в Google, - это Новости Google, где новостные статьи сгруппированы по темам и географическому положению, а наиболее репрезентативные результаты обычно имеют самый высокий рейтинг в каждом из этих кластеров.
Вместо того, чтобы оценивать кластеры профильными экспертами, используется краудсорсинговый подход к оценке. Это, вероятно, экономит время, и оценщики могут оценивать и уточнять множество кластеров результатов поиска. Это заставляет меня задуматься, как веб-страницы могут выделяться как репрезентативные для кластеров.
ПОДРОБНЕЕ [На главную]
