Pontuações de entidades relacionadas em pesquisas baseadas em conhecimento
Publicados: 2018-02-12“O mecanismo de pesquisa perfeito iria entender exatamente o que você quer dizer e devolver exatamente o que
você quer." Larry Page, How Search Works
Usando bases de conhecimento para responder a perguntas sobre entidades
Três anos atrás, eu escrevi Como entidades da base de conhecimento podem ser usadas em pesquisas sobre como você poderia pesquisar usando uma consulta como, “Qual é o filme em que Robert Duvall interpreta um personagem que diz o quanto adora o cheiro de Napalm pela manhã . ” Aquela busca por um filme em que um ator famoso diz uma fala conhecida é um exemplo do Google usando fatos que pode aprender a partir de bases de conhecimento para poder responder a dúvidas. Não responde com um trecho em destaque. Em vez disso, mostra alguns vídeos seguidos de outros documentos que também respondem a essa pergunta.
Uma patente concedida ao Google no mês passado também analisa informações de um gráfico de conhecimento que pode ter aprendido com bases de conhecimento para responder a perguntas. Não como fragmentos de destaque, mas sim resultados de pesquisa que aprendem sobre as entidades em uma consulta e propriedades relacionadas. Esta é uma pesquisa semântica que vai além da compreensão de sinônimos e palavras semanticamente relacionadas, para conhecer algumas propriedades sobre as coisas envolvidas em uma pesquisa (lembre-se, o Google Knowledge Graph é sobre "Coisas, e não Strings", então vai além de apenas corresponder palavras-chave de uma consulta às mesmas palavras-chave (ou relacionadas) em um documento. Também introduz o conceito de pontuações de entidades relacionadas.
O Gráfico de Conhecimento coleta informações da entidade para responder às consultas
Sim, o gráfico do conhecimento é como uma enciclopédia, mas não é por isso que existe. Tenta aprender sobre as entidades, de modo que possa auxiliar no esclarecimento de dúvidas sobre elas, nos resultados da pesquisa
Esta nova patente nos diz como pode usar informações sobre entidades específicas para responder a perguntas:
Em algumas implementações, um método implementado por computador compreende a identificação em um gráfico de conhecimento, usando pelo menos um processador, pelo menos uma entidade e entidades relacionadas relacionadas a pelo menos uma entidade pelas respectivas propriedades. O método implementado por computador compreende, para cada uma das respectivas entidades relacionadas, determinar, usando pelo menos um processador, uma pontuação de entidade relacionada associada a uma propriedade respectiva que se relaciona a pelo menos uma entidade e a respectiva entidade relacionada. O método implementado por computador compreende, para cada propriedade respectiva, gerar uma pontuação de propriedade, usando pelo menos um processador, com base em pontuações de entidades relacionadas associadas a essa propriedade respectiva. O método implementado por computador compreende gerar, usando pelo menos um processador e fazer com que seja armazenada uma estrutura de dados de propriedades classificáveis com base nas pontuações de propriedade geradas, em que a estrutura de dados é usada para fornecer resultados de pesquisa classificados em resposta a uma consulta.
Se você fizer ao Google uma pergunta como “Onde George Washington era um agrimensor?” o mecanismo de pesquisa fornece resultados de pesquisa que detalham onde ele atuou como um agrimensor adolescente antes de entrar para o exército.

Uma cidade chamada Washington Virginia (que se autodenomina a primeira Washington) homenageia o jovem de 17 anos que pesquisou os arredores durante sua juventude.

Pontuações de entidades relacionadas
Como funciona o processo desta patente? É assim que o gráfico de conhecimento funciona para ajudar a retornar resultados de pesquisa, usando pontuações de entidade relacionadas:
Em algumas implementações, um sistema compreende uma estrutura de dados que compreende um gráfico de conhecimento e um ou mais processadores. Um ou mais processadores são configurados para executar operações que compreendem a identificação no gráfico de conhecimento pelo menos uma entidade e entidades relacionadas relacionadas a pelo menos uma entidade pelas respectivas propriedades. Um ou mais processadores são configurados para executar operações que compreendem, para cada uma das respectivas entidades relacionadas, a determinação de uma pontuação de entidade relacionada associada a uma respectiva propriedade que relaciona a pelo menos uma entidade e a respectiva uma das entidades relacionadas. Os um ou mais processadores são configurados para executar operações que compreendem, para cada respectiva propriedade, a geração de uma pontuação de propriedade com base nas pontuações de entidades relacionadas associadas a essa respectiva propriedade. Um ou mais processadores são configurados para executar operações que compreendem gerar e fazer com que seja armazenada uma estrutura de dados de propriedades classificáveis com base nas pontuações de propriedades geradas, em que a estrutura de dados é usada para fornecer resultados de pesquisa classificados em resposta a uma consulta.
A patente recém-concedida é
Fornecimento de resultados de pesquisa com base em propriedades classificadas
Inventores: Yiming Li e Zhenyu Gu
Cessionário: Google LLC
Patente dos Estados Unidos 9.875.320
Concedido: 23 de janeiro de 2018
Arquivado: 8 de fevereiro de 2016
Resumo
Uma entidade pode estar relacionada a várias entidades relacionadas por uma ou mais propriedades, e a entidade também pode estar associada a um ou mais tipos de entidade. Um sistema para fornecer resultados classificados pode incluir a identificação da entidade, entidades relacionadas e tipos. O sistema também pode determinar pontuações de entidades relacionadas para cada entidade relacionada respectiva, em relação à entidade. Para cada propriedade, as pontuações de entidades relacionadas das entidades relacionadas relacionadas à entidade por aquela propriedade são combinadas para gerar uma pontuação de propriedade. As propriedades são então classificadas com base em suas pontuações de propriedade. A classificação pode ocorrer para propriedades associadas a um tipo de entidade e os resultados da pesquisa classificados podem ser fornecidos como saída para um ou mais tipos de entidade de interesse.
Resultados de pesquisa e snippets em destaque
Vimos respostas a algumas perguntas que fornecem uma combinação de resultados de pesquisa e snippets em destaque, conforme escrevi na postagem O Google vai casar sua base de conhecimento com seu mecanismo de pesquisa? O Google não mostrou muita preferência por responder a uma consulta com um resultado de pesquisa ou um snippet em destaque ou um snippet estruturado.
Às vezes, uma resposta a uma pergunta sobre um filme pode parecer muito apropriada. Gosto quando uma pergunta sobre geografia, como qual é a capital de XXXX? mostra um mapa em um trecho de destaque, porque a localização de uma capital pode ser uma informação útil.
Não há bases de conhecimento específicas sobre como o Google usa seu Mapa de conhecimento para responder a perguntas sobre entidades
Ainda não existem bases de conhecimento que nos digam como o Google usa um gráfico de conhecimento. O mais próximo que temos são patentes como esta, que contém uma quantidade considerável de informações. Esta seção é rica em conceitos e dicas de como o Google pode tratar as informações sobre propriedades:

Uma determinada entidade pode estar associada a vários tipos e também pode estar relacionada a várias outras entidades por uma ou mais propriedades. Conforme usado neste documento, uma entidade é uma coisa ou conceito que é singular, único, bem definido e distinguível. Por exemplo, uma entidade pode ser uma pessoa, lugar, item, ideia, tópico, conceito abstrato, elemento concreto, outra coisa adequada ou qualquer combinação dos mesmos. Em algumas implementações, os resultados da pesquisa incluem resultados na identificação de referências de entidade. Conforme usado neste documento, uma referência de entidade é um identificador, por exemplo, texto ou outra informação que se refere a uma entidade. Por exemplo, uma entidade pode ser a personificação física de George Washington, enquanto uma referência de entidade é um conceito abstrato que se refere a George Washington. Quando apropriado, com base no contexto, será entendido que o termo entidade, conforme usado neste documento, pode corresponder a uma referência de entidade, e o termo referência de entidade, conforme usado neste documento, pode corresponder a uma entidade. Em algumas implementações, o sistema de pesquisa pode identificar um tipo de entidade associado a uma referência de entidade. O tipo de entidade pode ser uma categorização ou classificação usada para identificar referências de entidade na estrutura de dados. Por exemplo, a referência de entidade "George Washington" pode estar associada aos tipos de entidade "Presidente dos EUA", "Pessoa" e "Oficial militar". Propriedades descrevem relacionamentos entre entidades, em outras palavras, como uma entidade está relacionada a outra entidade. As propriedades mais importantes associadas a uma entidade podem depender de quais de seus tipos são de interesse. Por exemplo, para a entidade “Tom Hanks”, um usuário pode querer que os resultados da pesquisa incluam seus filmes ou outras informações sobre sua atuação. No entanto, para a entidade “Albert Einstein”, os usuários podem querer que os resultados da pesquisa incluam suas teorias, artigos técnicos e outras informações relacionadas às suas contribuições para a física. As técnicas divulgadas podem ser usadas para determinar os atributos importantes e, consequentemente, fornecer resultados de pesquisa que o usuário provavelmente deseja.
Quer saber mais informações sobre como uma base de conhecimento pode ser usada em uma pesquisa semântica? Pode valer a pena para você ler esta patente. Lembre-se de que o Google considera muitos sites como bases de conhecimento úteis que vão além da Wikipedia e do Wikidata. Ele pode considerar fontes como IMDB e Yahoo Finance como informações úteis sobre fatos.
Para ilustrar essa patente, decidi mostrar George Washington como um topógrafo. Poucas pessoas sabem que ele fez isso quando era adolescente! Também é possível que essa posição tenha desempenhado um papel significativo em cargos que ocupou posteriormente como comandante militar e político. A seguinte passagem da patente sobre tipos de entidade e informações de compreensão em um gráfico influenciou minha ilustração de escolha:
Um nó que representa os dados organizacionais pode ser incluído em um gráfico de conhecimento. Estes podem ser referidos aqui como nós de tipo de entidade. Conforme usado neste documento, um nó de tipo de entidade pode se referir a um nó em um gráfico de conhecimento, enquanto um tipo de entidade pode se referir ao conceito representado por um nó de tipo de entidade. Um tipo de entidade pode ser uma característica definidora de uma entidade. Por exemplo, o nó de tipo de entidade Y pode ser conectado a um nó de entidade X por uma borda ou link "É A", discutido mais adiante, de modo que o gráfico represente a informação "A Entidade X É o Tipo Y." Por exemplo, o nó de entidade “George Washington” pode ser conectado ao nó de tipo de entidade “Presidente”. Um nó de entidade pode ser conectado a vários nós de tipo de entidade, por exemplo, "George Washington" também pode ser conectado ao nó de tipo de entidade "Pessoa" e ao nó de tipo de entidade "Comandante Militar".
Recomendo ler esta patente e tentar entendê-la. Pode ajudar a relacionar como um mecanismo de pesquisa pode capturar e retornar consultas sobre propriedades e seus diferentes aspectos. Esta é uma pesquisa muito mais baseada na semântica, considerando informações sobre as coisas e como elas podem estar relacionadas entre si. Não se trata de combinar strings de texto de consultas a documentos. Em vez disso, focar em saber sobre entidades, seus tipos, suas propriedades e como eles podem ser relacionados a outras entidades.
Eu gostaria de ver um filme sobre um jovem Washington examinando as colinas da Virgínia. Eu perguntei no Google, "há um filme sobre George Washington como um topógrafo?" Parece que um longa-metragem de animação começou cobrindo aqueles dias: General George Washington
Usaremos pontuações de entidades relacionadas e pontuações de propriedades quando criarmos conteúdo no futuro?
As pontuações de entidades relacionadas e propriedades serão coisas importantes a se considerar no futuro? A patente fornece dicas de como os motores de busca podem usá-los desta forma:
A etapa 606 inclui um ou mais processadores gerando uma pontuação de propriedade para cada propriedade com base nas pontuações de entidade relacionadas associadas à propriedade. Pontuações de entidades relacionadas associadas a cada propriedade particular podem ser combinadas para aquela propriedade. Por exemplo, fazendo referência à FIG. 4, as pontuações da entidade relacionada para entidades relacionadas "Forrest Gump", "Grande" e "Salvando o Soldado Ryan" podem ser somadas para dar uma soma para a propriedade "Os filmes atuaram em", por exemplo, 0,8 + 0,8 + 0,8 = 2,4. Em um exemplo adicional, as pontuações da entidade relacionada podem ser combinadas como uma soma ponderada. Qualquer combinação adequada de pontuações de entidades relacionadas pode ser usada para gerar a pontuação de propriedade. Em algumas implementações, um ou mais tipos podem ser um subtipo de outro tipo de entidade. Por exemplo, fazendo referência à estrutura de dados 550 da FIG. 5, o tipo "Ator" pode ser um subtipo do tipo de entidade "Pessoa", que pode ser referido como um tipo pai em relação ao subtipo. Em algumas dessas implementações, para o tipo pai, a pontuação da propriedade para cada propriedade de cada subtipo pode ser somada com a mesma propriedade do tipo pai. Por exemplo, fazendo referência à estrutura de dados 550 da FIG. 5, a propriedade “Filmes atuados em” está incluída no tipo “Ator” e “Pessoa” e, consequentemente, a pontuação de propriedade de 9,0 para o tipo de entidade “Ator” pode ser agregada à pontuação de propriedade de 1,0 para o tipo de entidade “Pessoa. ” Um ou mais processadores podem renormalizar, dimensionar, ponderar ou de outra forma alterar as pontuações dentro do tipo pai após incorporar o subtipo.
Isso pode fazer um pouco mais de sentido depois de ler isso. O Google tem usado seu gráfico de conhecimento para responder a consultas de pesquisa com resultados de pesquisa por pelo menos 3 anos. Eles também estão se tornando mais sofisticados. É provável que continue evoluindo à medida que o Google tenta coisas novas e experimenta mais como eles exibem os resultados de pesquisa.
