클러스터링된 검색 결과의 크라우드소싱 평가

게시 됨: 2019-07-10

클러스터링과 가장 잘 클러스터된 검색 결과를 선택하기 위한 크라우드소싱 평가 접근 방식을 사용하여 소프트웨어 애플리케이션 순위 지정에 중점을 둔 Google 특허가 방금 승인되었습니다. 크라우드소싱 평가는 Mechanical Turk와 같은 출처에서 제공됩니다.

소프트웨어 응용 프로그램에 사용되는 것 외에도 이 접근 방식은 다음에도 적용됩니다.

  • 시장에서 판매되는 제품
  • 네트워크를 통해 사용 가능한 문서
  • 온라인 뮤직 스토어의 노래
  • 갤러리의 이미지
  • 등.

검색 결과 클러스터링 문제

클러스터된 검색 결과가 사용되는 이유는 많은 수의 응답 항목을 반환할 수 있는 쿼리를 처리하기 위한 것입니다. 알고리즘으로 생성되는 자동화된 클러스터링이 항상 고품질 클러스터를 생성하는 것은 아니라고 들었습니다. 이에 대한 응답으로 전문가에 의한 클러스터링 결과의 수동 평가 및 개선은 검색 결과의 품질을 향상시킬 수 있지만 속도가 느려질 수 있으며 많은 수의 쿼리로 확장할 수 없습니다. 이것이 이 특허가 해결하고자 하는 문제입니다.

솔루션으로서의 클러스터링된 검색 결과

이 특허의 이면에 있는 프로세스에는 크라우드소싱 평가를 위한 개선된 시스템을 만들고 클러스터링된 검색 결과를 확장 가능한 방식으로 수정하는 작업이 포함됩니다.

다양한 클러스터링 알고리즘을 사용하여 쿼리에 대한 클러스터 세트를 생성하는 시스템으로 시작합니다.

크라우드소싱 평가

그런 다음 클러스터링된 세트는 무작위 순서로 크라우드소싱 작업자 세트에 제공됩니다.

클러스터링된 검색 결과

작업자는 클러스터된 결과 세트를 작업자에게 제공하는 사용자 인터페이스와 상호 작용하여 다른 세트와 독립적으로 각 클러스터 세트에 대해 작업자로부터 평가를 받습니다. 각 평가는 클러스터를 서로 비교하기보다 각 클러스터의 품질에 중점을 둡니다.

다음을 포함하여 해당 클러스터에 대한 평가를 기반으로 각 클러스터에 대해 점수가 생성됩니다.

  • 주어진 평가
  • 등급 제공에 소요된 시간
  • 액세스한 추가 정보
  • 등.

    점수는 여러 작업자 응답에 대한 점수를 기반으로 쿼리에 대한 최상의 클러스터 집합을 생성한 클러스터링 알고리즘을 결정하는 데 사용할 수 있습니다.

    이들은 Google의 품질 평가자 가이드라인을 사용하여 검색 결과를 평가하는 평가자가 아닙니다. 검색 결과 클러스터 평가와 같은 작업을 통해 그런 인간 평가자를 본 적이 없습니다.

    검색 결과 클러스터링의 세분화

    검색 결과 클러스터를 평가하는 것 외에도 이 특허는 이러한 크라우드소싱 작업자가 최고로 결정된 클러스터에 대한 변경 및 개선을 제안할 수 있음을 알려줍니다. 크라우드소싱 평가 동안 작업자는 일련의 개선 작업에 따라 변경 사항을 제안할 수 있습니다.

    구체화 작업에는 다음이 포함될 수 있습니다.

    • 너무 유사한 두 클러스터 병합
    • 다른 클러스터와 맞지 않는 클러스터 삭제
    • 클러스터에서 항목/주제 삭제
    • 클러스터에서 특정 검색 항목 삭제
    • 한 클러스터에서 다른 클러스터로 엔터티 또는 검색 항목 이동

    우리는 또한 다음과 같이 말합니다.

    제안된 구체화가 작업에 대한 합의 임계값을 충족하는 경우 시스템은 클러스터 정의를 변경하여 자동으로 구체화하고/하거나 전문가에게 구체화를 보고할 수 있습니다.

    클러스터 세트 테스트

    각각의 클러스터 세트는 서로 다른 클러스터링 알고리즘을 나타낼 수 있습니다. 세트가 무작위로 크라우드소싱 작업자에게 전송되고 해당 클러스터를 평가합니다. 이러한 등급은 해당 클러스터에 대한 점수를 생성하기 위해 결합됩니다.

    방법은 또한 가장 높은 클러스터 세트 점수를 갖는 클러스터 세트에 대한 클러스터 세트 정의를 저장하고, 클러스터 세트 정의는 쿼리와 연관되고, 쿼리에 대한 요청을 수신한 후 검색 항목의 표시를 시작하기 위해 클러스터 세트 정의를 사용하는 단계를 포함합니다. 쿼리에 응답합니다.

    이 검색 결과 클러스터링 접근 방식의 장점

    이러한 구현은 다음 이점 중 하나 이상을 실현하는 데 사용될 수 있습니다.

    1. 시스템은 개별 쿼리에 대해 가장 잘 클러스터된 쿼리 결과를 생성하는 클러스터링 알고리즘을 결정하는 방법을 제공합니다. 결과를 보는 사용자에게 더 나은 사용자 경험을 제공합니다.
    2. 평가 및 평가는 전문가가 아닌 크라우드소싱 작업에 의존하기 때문에 확장 가능(예: 수백 또는 수천 개의 쿼리 처리 가능)
    3. 시스템은 작업에 충분한 시간을 할애하지 않거나 충분한 전문 지식(예: 쿼리 및 검색 항목에 대한 친숙도)이 없는 크라우드소싱 작업자의 평가를 낮추어 품질을 극대화합니다.
    4. 시스템은 또한 작업자가 첫 번째 제시된 세트에 더 많은 시간을 할애하는 편향을 피하기 위해 다른 작업자에게 무작위로 다른 클러스터 세트를 제시함으로써 품질을 최대화합니다.
    5. 전체 클러스터 세트를 평가하기 전에 작업자에게 각 클러스터를 평가하도록 요청함으로써 시스템은 각 클러스터의 평가를 권장합니다.
    6. 시스템은 크라우드소싱 작업자가 클러스터 세트의 클러스터 간의 중복성을 평가하는 데 도움이 되도록 각 클러스터에 대해 고품질 또는 중요한 검색 항목의 최대 수를 제공합니다.
    7. 시스템은 클러스터 세트의 두 클러스터 병합, 클러스터 세트에서 클러스터 삭제 또는 클러스터에서 특정 주제 또는 검색 항목 삭제와 같은 클러스터 세트의 구체화에 대한 합의를 촉진하고 클러스터 세트 정의를 자동으로 변경할 수 있습니다. 최소한의 작업자가 동일한 정제를 추천할 때

    검색 결과 클러스터링 특허는 다음에서 찾을 수 있습니다.

    검색 클러스터의 크라우드소싱 평가 및 개선
    발명가: Jilin Chen, Amy Xian Zhang; Sagar Jain, Lichan Hong, Ed Huai-Hsin Chi
    양수인: GOOGLE LLC
    미국 특허: 10,331,681
    부여: 2019년 6월 25일
    출원일: 2016년 4월 11일

    추상적 인

    구현은 검색 항목의 엔터티 연관을 기반으로 검색 결과를 표시하기 위한 개선된 시스템을 제공합니다. 예시적인 방법은 복수의 크라우드소싱 작업자 각각에 대해, 복수의 클러스터 세트로부터 무작위로 선택된 제1 클러스터 세트의 디스플레이를 크라우드소싱 작업자에게 개시하는 단계를 포함한다. 각 클러스터 집합은 쿼리에 응답하는 검색 항목 집합에 적용된 서로 다른 클러스터링 알고리즘을 나타냅니다. 방법은 또한 크라우드소싱 작업자로부터 제1 클러스터 세트에 대한 클러스터 등급을 수신하고 클러스터 등급에 기초하여 제1 클러스터 세트에 대한 클러스터 세트 점수를 계산하는 단계를 포함합니다. 이것은 복수의 클러스터 세트의 나머지 클러스터 세트에 대해 반복된다. 이 방법은 또한 최고 점수 클러스터 세트에 대한 클러스터 세트 정의를 저장하고, 클러스터 세트 정의를 쿼리와 연관시키고, 정의를 사용하여 쿼리에 응답하는 검색 항목을 표시하는 단계를 포함합니다.

    크라우드소싱 평가 테이크어웨이

    나는 이 특허가 검색 결과에 순위를 매기지 않고 최고의 검색 결과 클러스터에 등급을 매기고 정제하는 인간 평가자를 사용하기 때문에 흥미롭다는 것을 알았습니다. 클러스터는 다양한 클러스터링 알고리즘을 기반으로 하며 특허는 이러한 클러스터링 알고리즘이 작동하는 방식에 대해 많은 정보를 제공하지 않습니다. Google의 검색 결과에서 클러스터링을 보았을 수 있는 곳은 뉴스 기사가 주제 및 지역별로 그룹화되어 있고 가장 대표적인 결과가 일반적으로 각 클러스터 내에서 가장 높은 순위를 차지하는 Google 뉴스였습니다.

    주제 전문가가 클러스터를 평가하는 대신 크라우드소싱 평가 접근 방식이 사용됩니다. 시간을 절약할 수 있으며 평가자는 많은 검색 결과 클러스터를 평가하고 구체화할 수 있습니다. 이것은 웹 페이지가 클러스터를 대표하는 것으로 어떻게 눈에 띌 수 있는지 궁금합니다.

    상세 [홈]