Краудсорсинговая оценка результатов кластерного поиска

Опубликовано: 2019-07-10

Только что был получен патент Google на ранжирование программных приложений с использованием кластеризации и краудсорсингового подхода к оценке результатов поиска с наилучшей кластеризацией. Оценка краудсорсинга будет предоставлена ​​такими источниками, как Mechanical Turk.

Этот подход предназначен не только для программных приложений, но и для:

  • Товары, продаваемые на торговой площадке
  • Документы доступны по сети
  • Песни в музыкальном онлайн-магазине
  • Изображения в галерее
  • И Т. Д.

Проблема с кластеризацией результатов поиска

Причина, по которой будут использоваться кластерные результаты поиска, будет заключаться в том, чтобы отвечать на запросы, которые могут возвращать большое количество ответных элементов. Нам говорят, что автоматическая кластеризация, генерируемая алгоритмами, не всегда дает высококачественные кластеры. В ответ на это, ручная оценка и уточнение результатов кластеризации экспертами может повысить качество результатов поиска, но также может быть медленным и не может масштабироваться для большого количества запросов. Это проблема, которую призван решить этот патент.

Кластерные результаты поиска как решение

Процесс, лежащий в основе этого патента, включает создание улучшенной системы оценки краудсорсинга и масштабируемого уточнения результатов кластерного поиска.

Он начинается с того, что система генерирует наборы кластеров для запроса с использованием различных алгоритмов кластеризации.

краудсорсинговая оценка

Затем эти кластерные наборы будут представлены группе краудсорсинговых работников в случайном порядке.

сгруппированные результаты поиска

Рабочие будут взаимодействовать с пользовательским интерфейсом, который представляет кластерные наборы результатов рабочим, чтобы получать оценки от этих рабочих для каждого набора кластеров независимо от других наборов. Каждая оценка фокусируется на качестве каждого кластера, а не на сравнении кластеров друг с другом.

Оценка создается для каждого кластера на основе оценки этого кластера, включая:

  • Приведенные рейтинги
  • Время, потраченное на выставление оценок
  • Доступ к дополнительной информации
  • И Т. Д.

    Оценка может использоваться для определения на основе оценки нескольких ответов работников, какой алгоритм кластеризации дал лучший набор кластеров для запроса.

    Это не те оценщики, которые оценивают результаты поиска в соответствии с рекомендациями Google Quality Rater's Guidelines. Я никогда не видел, чтобы эти люди-оценщики выполняли такую ​​задачу, как оценивание кластеров результатов поиска.

    Уточнение кластеризации результатов поиска

    В дополнение к оценке кластеров результатов поиска, патент также сообщает нам, что эти краудсорсинговые сотрудники могут предлагать изменения и уточнения в кластере, который был определен как лучший. Во время краудсорсинговой оценки рабочие могут предлагать изменения в соответствии с серией уточняющих задач.

    Задачи уточнения могут включать:

    • Объединение двух слишком похожих кластеров
    • Удаление кластера, который не подходит другим
    • Удаление объекта / темы из кластера
    • Удаление определенного элемента поиска из кластера
    • Перемещение объекта или элемента поиска из одного кластера в другой кластер

    Нам также говорят, что:

    Если предлагаемое уточнение соответствует порогу согласования для задач, система может автоматически выполнить уточнение, изменив определение кластера, и / или может сообщить об уточнении эксперту.

    Тестирование набора кластеров

    Каждый из наборов кластеров может представлять другой алгоритм кластеризации. Набор случайным образом рассылается краудсорсинговым работникам, и они оценивают этот кластер. Эти рейтинги объединяются для получения баллов для этих кластеров.

    Метод также включает в себя сохранение определения набора кластеров для набора кластеров с наивысшей оценкой набора кластеров, определение набора кластеров связано с запросом и использование после получения запроса на запрос определения набора кластеров для инициирования отображения элементов поиска. реагирует на запрос.

    Преимущества этого подхода к кластеризации результатов поиска

    Эти реализации могут использоваться для реализации одного или нескольких из следующих преимуществ.

    1. Система предоставляет способ определить, какой алгоритм кластеризации дает наилучшие результаты кластеризации запросов для отдельных запросов. Это обеспечивает лучший пользовательский интерфейс для пользователей, просматривающих результаты.
    2. Оценка и рейтинг являются масштабируемыми (например, могут обрабатывать сотни или тысячи запросов), потому что они зависят от задач краудсорсинга, а не от экспертов.
    3. Система обеспечивает максимальное качество за счет занижения оценок работников краудсорсинга, которые не уделяют достаточно времени задаче и / или не обладают достаточным опытом (например, знакомы с запросом и элементами поиска).
    4. Система также максимизирует качество, представляя разные наборы кластеров случайным образом разным работникам, чтобы избежать предвзятости рабочего тратить больше времени на первый представленный набор.
    5. Попросив работника оценить каждый кластер перед оценкой всего набора кластеров, система поощряет оценку каждого кластера.
    6. Система предоставляет максимальное количество высококачественных или важных элементов поиска для каждого кластера, чтобы помочь работнику краудсорсинга оценить избыточность между кластерами в наборе кластеров.
    7. Система способствует достижению консенсуса по уточнению наборов кластеров, таким как слияние двух кластеров в наборе кластеров, удаление кластера из набора кластеров или удаление определенных тем или элементов поиска из кластера, и может автоматически вносить изменения в определение набора кластеров. когда минимальное количество рабочих рекомендует такую ​​же доработку

    Патент на кластеризацию результатов поиска можно найти по адресу:

    Краудсорсинговая оценка и уточнение поисковых кластеров
    Изобретатели: Цзилинь Чен, Эми Сянь Чжан; Сагар Джайн, Личан Хонг и Эд Хуай-Синь Чи
    Цессионарий: GOOGLE LLC
    Патент США: 10,331,681.
    Выдано: 25 июня 2019 г.
    Подана: 11 апреля 2016 г.

    Абстрактный

    Реализации предоставляют улучшенную систему для представления результатов поиска на основе ассоциаций сущностей элементов поиска. Примерный способ включает в себя для каждого из множества работников краудсорсинга инициирование отображения первого случайно выбранного набора кластеров из множества наборов кластеров для работника краудсорсинга. Каждый набор кластеров представляет собой отдельный алгоритм кластеризации, применяемый к набору элементов поиска, отвечающих на запрос. Метод также включает получение рейтингов кластеров для первого набора кластеров от работника краудсорсинга и вычисление баллов набора кластеров для первого набора кластеров на основе рейтингов кластеров. Это повторяется для остальных наборов кластеров во множестве наборов кластеров. Метод также включает в себя сохранение определения набора кластеров для набора кластеров с наивысшей оценкой, связывание определения набора кластеров с запросом и использование определения для отображения элементов поиска в ответ на запрос.

    Выводы по оценке краудсорсинга

    Я нашел этот патент интересным, потому что в нем были задействованы люди-оценщики, которые не ранжировали результаты поиска, а вместо этого оценивали и уточняли лучшие кластеры результатов поиска. Кластеры основаны на различных алгоритмах кластеризации, и патент мало что говорит нам о том, как эти алгоритмы кластеризации могут работать. Место, где вы, возможно, видели кластеризацию результатов поиска в Google, - это Новости Google, где новостные статьи сгруппированы по темам и географическому положению, а наиболее репрезентативные результаты обычно имеют самый высокий рейтинг в каждом из этих кластеров.

    Вместо того, чтобы оценивать кластеры профильными экспертами, используется краудсорсинговый подход к оценке. Это, вероятно, экономит время, и оценщики могут оценивать и уточнять множество кластеров результатов поиска. Это заставляет меня задуматься, как веб-страницы могут выделяться как репрезентативные для кластеров.

    ПОДРОБНЕЕ [На главную]