Uma avaliação de crowdsourcing de resultados de pesquisa agrupados
Publicados: 2019-07-10Uma patente do Google com foco na classificação de aplicativos de software usando clustering e uma abordagem de avaliação de crowdsourcing para escolher os melhores resultados de pesquisa agrupados acaba de ser concedida. A avaliação de crowdsourcing seria fornecida por fontes como Mechanical Turk.
Além de ser usada para aplicativos de software, esta abordagem também se destina a ser aplicada a:
- Produtos vendidos em um mercado
- Documentos disponíveis em uma rede
- Músicas em uma loja de música online
- Imagens em uma galeria
- Etc.
O problema com agrupamento de resultados de pesquisa
O motivo pelo qual os resultados da pesquisa em cluster seriam usados seria para tratar de consultas que podem retornar um grande número de itens responsivos. Dizem que o clustering automatizado, gerado por algoritmo, nem sempre produz clusters de alta qualidade. Em resposta, a avaliação manual e o refinamento dos resultados de agrupamento por especialistas podem aumentar a qualidade dos resultados da pesquisa, mas também podem ser lentos e não escalar para um grande número de consultas. Esse é o problema que esta patente pretende abordar.
Resultados de pesquisa agrupados como uma solução
O processo por trás desta patente envolve a criação de um sistema aprimorado para avaliação de crowdsourcing e o refinamento dos resultados da pesquisa agrupada de maneira escalonável.
Ele começa com o sistema gerando conjuntos de clusters para uma consulta com o uso de uma variedade de algoritmos de agrupamento.

Esses conjuntos agrupados seriam então apresentados a um conjunto de trabalhadores de crowdsourcing, em ordem aleatória.

Os trabalhadores interagiriam com uma interface de usuário que apresenta os conjuntos de resultados agrupados para os trabalhadores, para receber avaliações desses trabalhadores para cada conjunto de cluster independentemente dos outros conjuntos. Cada avaliação enfoca a qualidade de cada cluster, em vez de comparar os clusters entre si.
Uma pontuação é gerada para cada cluster com base na avaliação desse cluster, incluindo:
- Avaliações dadas
- O tempo gasto fornecendo as avaliações
- Informações adicionais acessadas
- Etc.
A pontuação pode ser usada para determinar, com base na pontuação em várias respostas do trabalhador, qual algoritmo de agrupamento produziu o melhor conjunto de clusters para a consulta.
Estes não são os avaliadores que avaliam os resultados da pesquisa usando as Diretrizes de Quality Rater do Google. Nunca vi esses avaliadores humanos passarem por uma tarefa como classificar agrupamentos de resultados de pesquisa.
Refinamento do agrupamento de resultados de pesquisa
Além de classificar os agrupamentos de resultados de pesquisa, a patente também nos diz que esses trabalhadores crowdsourced podem sugerir mudanças e refinamentos para o agrupamento que foi determinado como o melhor. Durante a avaliação crowdsourced, os trabalhadores podem sugerir mudanças de acordo com uma série de tarefas de refinamento.
As tarefas de refinamento podem incluir:
- Mesclar dois clusters que são muito semelhantes
- Excluindo um cluster que não parece se adequar aos outros
- Excluindo uma entidade / tópico de um cluster
- Excluir um item de pesquisa específico de um cluster
- Mover uma entidade ou item de pesquisa de um cluster para outro cluster
Também somos informados de que:
Se o refinamento sugerido atender a um limite de acordo para as tarefas, o sistema pode fazer o refinamento automaticamente alterando a definição do cluster e / ou pode relatar o refinamento a um especialista.
Teste de conjunto de cluster
Cada um dos conjuntos de cluster pode representar um algoritmo de clustering diferente. Um conjunto é enviado para trabalhadores crowdsourced aleatoriamente e eles avaliam esse cluster. Essas classificações são combinadas para gerar pontuações para esses clusters.
O método também inclui o armazenamento de uma definição de conjunto de cluster para o conjunto de cluster com a pontuação de conjunto de cluster mais alta, a definição de conjunto de cluster é associada à consulta e usando, após receber uma solicitação para a consulta, a definição de conjunto de cluster para iniciar a exibição de itens de pesquisa responsivo à consulta.

Vantagens dessa abordagem de agrupamento de resultados de pesquisa
Essas implementações podem ser usadas para realizar uma ou mais das seguintes vantagens.
- O sistema fornece uma maneira de determinar qual algoritmo de agrupamento produz os melhores resultados de consulta agrupados para consultas individuais. Isso fornece uma melhor experiência do usuário para os usuários que visualizam os resultados
- A avaliação e classificação são escaláveis (por exemplo, pode lidar com centenas ou milhares de consultas) porque depende de tarefas de crowdsource e não de especialistas
- O sistema maximiza a qualidade reduzindo as classificações de funcionários de crowdsourcing que não gastam tempo suficiente na tarefa e / ou que não têm experiência suficiente (por exemplo, familiaridade com a consulta e os itens de pesquisa)
- O sistema também maximiza a qualidade, apresentando os diferentes conjuntos de cluster aleatoriamente para diferentes trabalhadores para evitar um viés do trabalhador de gastar mais tempo no primeiro conjunto apresentado
- Ao pedir ao trabalhador para avaliar cada cluster antes de avaliar o conjunto geral do cluster, o sistema incentiva a avaliação de cada cluster
- O sistema fornece um número máximo de itens de pesquisa importantes ou de alta qualidade para cada cluster para auxiliar o trabalhador de crowdsource na avaliação da redundância entre os clusters em um conjunto de cluster
- O sistema facilita o consenso sobre o refinamento de conjuntos de cluster, como a fusão de dois clusters no conjunto de cluster, exclusão de um cluster do conjunto de cluster ou exclusão de tópicos específicos ou itens de pesquisa de um cluster e pode fazer alterações automaticamente na definição do conjunto de cluster quando um número mínimo de trabalhadores recomenda o mesmo refinamento
A patente de agrupamento de resultados de pesquisa pode ser encontrada em:
Avaliação crowdsourced e refinamento de clusters de pesquisa
Inventores: Jilin Chen, Amy Xian Zhang; Sagar Jain, Lichan Hong e Ed Huai-Hsin Chi
Cessionário: GOOGLE LLC
Patente dos EUA: 10.331.681
Concedido: 25 de junho de 2019
Arquivado: 11 de abril de 2016Resumo
As implementações fornecem um sistema aprimorado para apresentar os resultados da pesquisa com base nas associações de entidades dos itens da pesquisa. Um método de exemplo inclui, para cada um de uma pluralidade de trabalhadores de crowdsource, iniciar a exibição de um primeiro conjunto de cluster selecionado aleatoriamente de uma pluralidade de conjuntos de cluster para o trabalhador de crowdsource. Cada conjunto de cluster representa um algoritmo de clustering diferente aplicado a um conjunto de itens de pesquisa responsivos a uma consulta. O método também inclui receber classificações de cluster para o primeiro conjunto de cluster do trabalhador crowdsource e calcular uma pontuação de conjunto de cluster para o primeiro conjunto de cluster com base nas classificações de cluster. Isso é repetido para os conjuntos de agrupamentos restantes na pluralidade de conjuntos de agrupamentos. O método também inclui o armazenamento de uma definição de conjunto de clusters para um conjunto de clusters de pontuação mais alta, associando a definição de conjunto de clusters à consulta e usando a definição para exibir itens de pesquisa responsivos à consulta.
TakeAways de avaliação de crowdsourcing
Achei esta patente interessante por causa do uso de avaliadores humanos que não classificavam os resultados da pesquisa, mas sim classificavam e refinavam os melhores grupos de resultados da pesquisa. Os clusters são baseados em diferentes algoritmos de cluster e a patente não nos diz muito sobre como esses algoritmos de cluster podem funcionar. O lugar onde você pode ter visto o agrupamento nos resultados de pesquisa do Google é o Google Notícias, onde os artigos de notícias são agrupados por tópicos e geografia, e os resultados mais representativos geralmente são os de classificação mais alta em cada um desses agrupamentos.
Em vez de grupos de avaliação de especialistas no assunto, uma abordagem de avaliação de crowdsourcing é usada. Provavelmente economiza tempo e os avaliadores podem classificar e refinar muitos grupos de resultados de pesquisa. Isso me fez imaginar como as páginas da web podem ser capazes de se destacar como sendo representativas de clusters.
DETALHADO [Home]
