Geração de padrões de consulta no Google

Publicados: 2019-11-14

Como as consultas podem determinar os classificadores de intenção

Quando alguém está procurando por algo, eles digitarão algumas palavras-chave em uma caixa de pesquisa em um mecanismo de pesquisa.

Recentemente, o Google obteve uma patente envolvendo os padrões que as consultas podem ser vistas nas pesquisas.

Normalmente, as palavras-chave usadas em uma pesquisa podem indicar uma intenção por trás de uma pesquisa e podem "indicar a extensão das informações desejadas pelo usuário e podem ser capturadas usando um classificador para capturar um contexto para uma ou mais ações realizadas pelo usuário".

Esse é o foco desta nova patente.

Ele nos diz mais sobre esse Classificador e como ele pode ser inferido por um mecanismo de pesquisa como o Google, para entender melhor a finalidade de uma pesquisa e para “atribuir um contexto à pesquisa usando o classificador”.

A patente fornece um exemplo disso. Ele nos diz que a intenção (por exemplo, classificador) pode dizer mais sobre um ou mais tópicos que um pesquisador pode desejar ver exibidos em resposta à consulta nos resultados da pesquisa e algo sobre o quão específicas essas informações podem ser sobre esses tópicos.

Em outras palavras, o Google analisaria a entrada do usuário em relação à pesquisa para decidir sobre as categorias de tópicos para responder a uma consulta.

Exemplos de consultas e intenções

Alguns exemplos relacionados de consultas de pesquisa na patente: [Barack Obama] e [discurso da convenção de Obama em 2004]. Essas consultas mostram uma necessidade de informações sobre Barack Obama cobrindo tópicos ligeiramente diferentes com diferentes níveis de especificidade.

O Google analisará a consulta para decidir qual é a intenção por trás dela. Em seguida, ele atribuirá um classificador com base nessa intenção.

Este trabalho de patente analisa consultas de pesquisa, padrões de consulta e documentos de consulta a fim de gerar consultas adicionais, padrões de consulta e gráficos de consulta que podem ser úteis para fornecer conteúdo de pesquisa que corresponda a uma ou mais intenções indicadas por usuários inserindo consultas de pesquisa.

Geração de Padrão de Consulta

Somos informados de que as consultas de pesquisa e os documentos de pesquisa podem ter diferentes resoluções de intenção do usuário. O Google pode examinar os documentos que podem ser retornados para uma consulta para ter uma ideia de qual pode ser a intenção do usuário em resposta a essa consulta.

A patente nos diz que a vantagem de olhar para esses documentos é:

Dessa forma, os algoritmos podem ser usados ​​para alavancar exatamente a separação da intenção implícita nos documentos, e a intenção pode ser projetada nas consultas usando o classificador. Esse mapeamento pode ser usado para gerar e combinar padrões de consulta, que podem ser usados ​​para combinar resultados de pesquisa com consultas de pesquisa inseridas pelo usuário.

Patent Takeaway

Pensando nessa abordagem, isso me sugere que, se você estiver realizando uma pesquisa de palavras-chave, deve pesquisar as palavras-chave que está pensando em otimizar e examinar cuidadosamente os documentos que o Google está retornando em resposta a isso, para ter uma ideia de que intenção o Google está determinando que essas palavras-chave estão sugerindo.

Geração automatizada de padrões de consulta

Além de ser capaz de determinar a intenção, este parece ser o foco do processo por trás desta patente:

... os sistemas e métodos descritos neste documento podem detectar um padrão de consulta associado a uma consulta de pesquisa inserida pelo usuário e gerar automaticamente padrões de consulta semelhantes com base no padrão de consulta detectado. Em particular, os sistemas e métodos descritos neste documento podem acessar documentos de pesquisa que correspondem a um padrão de consulta detectado para gerar um ou mais padrões de consulta que podem ser usados ​​para localizar documentos semelhantes aos documentos de pesquisa acessados. Usar documentos de pesquisa para determinar a intenção em uma consulta pode fornecer a vantagem de aproveitar as intenções e / ou subintensões implícitas nos documentos e projetar essas intenções e / ou subintensões nas consultas de pesquisa recebidas.

Portanto, além de compreender melhor a intenção por trás de uma consulta, o Google pode trabalhar para identificar os padrões por trás das consultas. A patente aponta alguns exemplos:

Conforme usado aqui, um modelo de consulta representa uma frase de consulta que inclui porções de consulta (por exemplo, sub-frases) e suporte para especificar porções de substituição. Por exemplo, o modelo de consulta [clima em X] pode ser usado para representar consultas como [clima em Paris], [clima em NYC] e [clima em NYC]. O “X” representa porções de substituição, enquanto os termos “clima”, “NYC” e “Paris” representam porções de consulta.

padrões de consulta

Portanto, um padrão de consulta que pode ter vários exemplos pode ser considerado um modelo de consulta. Um padrão de consulta como [clima em X] pode representar todas as consultas que incluem o termo "clima" e um termo que identifica uma localização geográfica, como [clima em Paris], [clima em NYC], [clima na costa leste ] e [clima perto de mim].

Um padrão de consulta pode incluir:

  1. Uma ou mais regras predefinidas para corresponder a uma consulta recebida e interpretar a consulta correspondida
  2. Um identificador de idioma (por exemplo, francês)
  3. Um país ou domínio (por exemplo, França)
  4. Palavras irrelevantes (que podem ser ignoradas)
  5. Um conector
  6. Um valor de confiança
  7. Uma estratégia de filtro de divisão de consulta

Um anotador de consulta também pode ser usado na geração de padrões de consulta.

Um anotador de consulta determina quais entidades aparecem em uma determinada consulta, onde cada uma dessas entidades tem uma representação canônica que é independente do idioma, por exemplo, aplicar um anotador de consulta na consulta "clima em Paris" pode anotar a string "Paris" com um identificador exclusivo (por exemplo, “/ m / 05qtj”) que representa a representação canônica de “Paris”, a capital da França. Você pode notar que o identificador único da patente é um número de ID de máquina, do Freebase, que o Google usou em outro lugar na pesquisa para identificar entidades (consulte: Pesquisa de imagens e tendências na pesquisa do Google usando números de entidade do FreeBase)

Usando esses modelos de consulta, padrões de consulta e anotadores de consulta, o Google pode encontrar ou gerar outros padrões de consulta que provavelmente expressam a mesma intenção do usuário.

Por exemplo, um padrão de consulta como [clima em X] também inclui:

[Clima X]
[como está o tempo em X]
[como está o tempo em X]
[qual é a temperatura em X]
[está chovendo em X]
etc.

Isso ocorre porque alguém que pesquisa [clima em Paris] e outra pessoa que pesquisa [clima em Paris] provavelmente têm a mesma intenção de ver o mesmo tipo de informação.

A escala de geração automática de padrões de consulta

Ao ler uma patente como esta, você pode se perguntar com que freqüência ela pode ser usada. Às vezes, temos a sorte de receber declarações como a seguinte em uma patente (observe os "bilhões de documentos da Web" descritos aqui:

O gerador de padrões pode ser configurado para converter um conjunto de consultas de pesquisa semelhantes em um conjunto de padrões, usando subfrases repetidas das consultas de pesquisa. O conjunto de padrões pode ser agregado em um gráfico de padrões com base em bilhões de documentos da web disponíveis na Intranet. Em geral, cada documento na Internet pode contribuir com vários pares de padrões de consulta que podem ser semelhantes. Esses pares são a base do gráfico de padrão agregado. No gráfico de padrão agregado, cada padrão de consulta representa um nó e cada dois nós semelhantes são conectados em uma borda do gráfico. A similaridade entre dois nós conectados pode ser quantificada por uma pontuação de similaridade para a borda que conecta os dois nós. Um par de nós semelhantes pode ser conhecido como vizinhos semelhantes. O uso de vizinhos semelhantes para filtrar padrões candidatos fora do tópico pode fornecer a vantagem de diminuir a ocorrência de um usuário recebendo resultados de pesquisa imprecisos em exemplos nos quais dois padrões são considerados semelhantes com base nos dois padrões que retornam resultados de pesquisa semelhantes, mesmo que o usuário a intenção dos dois padrões, na verdade, não é semelhante (por exemplo, para os padrões de consulta [tratamento X] e [sintomas X]). Isso ocorre porque muitos documentos obtêm tráfego de ambos os padrões. Usando critérios de vizinhos semelhantes, os algoritmos usados ​​no sistema 100 podem determinar que padrões particulares não são realmente semelhantes, mesmo se documentos relacionados aparecerem nos mesmos resultados de pesquisa.

Também vimos patentes que descrevem modelos de consulta para snippets em destaque. Eu escrevi sobre um no post Trechos em destaque - Resultados de pesquisa de linguagem natural para consultas de intenção. Esse tenta identificar padrões de consulta que podem ser respondidos de maneira ideal com trechos de destaque. Não estou vendo a frase “snippets em destaque” nesta patente, mas ela tem vários exemplos de padrões de consulta.

Por exemplo, documentos associados ao tópico “coisas legais para fazer na Califórnia” podem ser fornecidos e selecionados por pesquisadores que usam consultas como:

(a) “coisas para fazer na Califórnia”
(b) “o que fazer na Califórnia”
(c) “atrações da Califórnia”
(d) “melhores coisas para fazer na Califórnia”
etc.

Consultas semelhantes podem trocar a entidade “Califórnia” por outra como “Ohio”.

Conclusões da Patente de Geração Automática de Padrão de Consulta

Trabalhando com esta patente, lembrei-me de uma pesquisa de palavras-chave que fiz no passado, encontrando padrões e modelos de consulta e adicionando anotadores de consulta a eles usando uma função de concatenação no Excel.

Freqüentemente, ao escrever sobre a intenção em consultas, vemos pessoas mencionando consultas navegacionais, informativas e transacionais. Uma das últimas vezes que escrevi sobre intenção em consultas foi no post Como o Google pode identificar consultas e recursos de navegação. Esta patente que analisa os padrões de consulta para entender melhor a intenção por trás de uma consulta pode fornecer informações mais precisas sobre a intenção de uma pesquisa do que apenas se a pesquisa é informativa, de navegação ou transacional.

em 2014, o Google tinha o projeto Biperpedia em execução, que usava informações de log de consulta para construir uma ontologia de pesquisa, que incluía consultas canônicas - como você pode querer coletar informações sobre se decidiu fazer coisas com padrões de consulta e modelos de consulta. Vimos as IDs de máquina de entidade mencionadas nesta patente para números de base livre como os que podem ser encontrados no gráfico de conhecimento do Google. Portanto, fontes como a Biperpedia e o gráfico de conhecimento seriam locais onde as informações sobre os modelos de consulta poderiam ser reunidas, para serem usadas para responder a consultas com intenções diferentes.

Esta patente de Geração Automática de Padrão de Consulta pode ser encontrada em:

Geração automática de padrões de consulta
Inventores: Tomer Shmiel, Dvir Keysar e Vered Cohen
Cessionário: GOOGLE LLC
Patente dos EUA: 10.467.256
Concedido: 5 de novembro de 2019
Arquivado: 3 de agosto de 2016

Resumo

É descrito um aspecto geral que inclui um método implementado por computador para gerar um gráfico de padrão. O método pode incluir o acesso a dados pertencentes a um corpus de documentos da web. Os dados podem incluir uma pluralidade de pares consulta-documento. O método também pode incluir a identificação de pelo menos um padrão de consulta na pluralidade de pares de consulta-documento e o padrão de consulta pode ser associado a uma porção de documentos da web no corpus. O método também pode incluir identificar uma pluralidade de subfrases em pelo menos um padrão de consulta, determinar, no corpus de documentos da web, uma pluralidade de outros padrões de consulta que incluem pelo menos um da pluralidade de subfrases e atribuir um classificador para o pelo menos um padrão de consulta e cada um da pluralidade de outros padrões de consulta que incluem pelo menos uma das subfrases.