Como o Google processa consultas: recursos de resolução de entidades

Publicados: 2017-07-18

O Google executa resolução de entidades para compreender as entidades que vê nas consultas

A Web está repleta de entidades - informações sobre pessoas, lugares e coisas. Um mecanismo de busca pode coletar conhecimento sobre conexões entre entidades. Na apresentação Como funciona o Google, Paul Haahr, do Google, nos disse que o Google tentará identificar as entidades que aparecem nas consultas. Sua apresentação envolve mais do que apenas rastrear a Web e localizar a presença de links nas páginas, e é recomendável assistir.

Uma patente concedida ao Google em 4 de julho foca na presença de entidades nas consultas e no entendimento delas. Ele se concentra em algo chamado resolução de entidade ou o que uma entidade em uma consulta pode representar. Quando olhei para a patente, fiquei impressionado com o número de referências que os requerentes da patente apresentaram junto com a patente e queria ler essas. Achei que valia a pena compartilhar com outras pessoas também. Não para provar um ponto específico ou para tomar uma posição ou opinião específica, mas para dar a qualquer pessoa disposta a dedicar um tempo lendo o material para dar uma olhada nos artigos e pesquisas mais recentes envolvendo resolução de entidades. Eu li alguns deles e estarei lendo mais. Alguns desses artigos são de coautoria de pesquisadores do Google. Se você encontrar algo que o surpreenda, por favor, compartilhe nos comentários. Passar por uma compreensão das entidades nas consultas faz muito sentido, pois esse processo pode colocar essas consultas no contexto. Ter uma noção de como o Google pode processar uma consulta pode dar algumas ideias que vão além das pontuações de recuperação de informações e pontuações de PageRank para páginas. Como o Google está se ajustando ao contexto, à presença de entidades em uma consulta?

Por exemplo, Newcastle pode se referir a Newcastle upon Tyne, Reino Unido, ao clube de futebol (futebol) Newcastle United ou à bebida Newcastle Brown Ale. O contexto pode ajudar a eliminar a ambiguidade do texto de referência. Por exemplo, se o texto de referência inclui o contexto de "John joga pelo Newcastle", a menção é provavelmente o clube de futebol, enquanto "John nasceu em Newcastle" provavelmente se refere ao local, etc.

Sabemos que o Google estava tentando entender melhor o contexto no desenvolvimento de palavras-chave, como escrevi em Google Patents Context Vectors to improvement Search. Uma patente do Google sobre como entender melhor o contexto das Entidades pode adicionar significado às páginas e o que um mecanismo de pesquisa sabe sobre elas. O foco desta nova patente está na construção de modelos que podem ajudar a compreender as consultas usando a resolução de entidade:

Os modelos prevêem a probabilidade de algum evento dado observações. Algoritmos de aprendizado de máquina podem ser usados para treinar os parâmetros do modelo. Por exemplo, o modelo pode armazenar um conjunto de recursos e uma pontuação de suporte para cada uma de uma pluralidade de entidades diferentes. A pontuação de suporte representa uma pontuação de probabilidade que o modelo aprendeu, uma probabilidade de que o recurso ocorra de acordo com a entidade. Os modelos usados na resolução de entidade contam com três componentes: um modelo de menção, um modelo de contexto e um modelo de coerência. O modelo mencionado representa a crença anterior de que uma frase particular se refere a uma entidade particular no gráfico de dados. O modelo de contexto infere a entidade mais provável para uma menção, dado o contexto textual da menção. Em um modelo de contexto, cada recurso pode representar uma frase que faz parte do contexto para a menção da entidade. Por exemplo, a frase “presidente” pode ter uma pontuação de apoio (ou pontuação de probabilidade) para as entidades de “Barack Obama”, “Bill Clinton”, “Nicolas Sarkozy” e muitos outros. Da mesma forma, a frase "joga para" pode ter uma pontuação de suporte para várias bandas, times, etc. O contexto discutido acima pode ser representado por um conjunto de recursos, ou frases, co-ocorrendo com (por exemplo, ocorrendo em torno) do texto de referência , ou menção de entidade. O modelo de coerência tenta forçar todas as expressões de referência em um documento a resolver entidades que estão relacionadas entre si no gráfico de dados. Mas um modelo de coerência introduz dependências entre as resoluções de todas as menções em um documento e requer que os relacionamentos de entidades relevantes no gráfico de dados estejam disponíveis no momento da inferência, aumentando os custos de inferência e de acesso ao modelo.

A patente de resolução da entidade é:

Modelo de contexto aditivo para resolução de entidade
Inventores: Amarnag Subramanya, Michael Ringgaard e Fernando Carlos das Neves Pereira
Cessionário: Google
Patente dos EUA: 9.697.475
Concedido: 4 de julho de 2017
Arquivado: 23 de dezembro de 2013

Resumo:

Sistemas e métodos são divulgados para usar um modelo de contexto aditivo para desambiguação de entidade. Um método de exemplo pode incluir o recebimento de um intervalo de texto de um documento e um vetor de frase para o intervalo. O vetor de frase pode ter vários recursos e representar um contexto para o período. O método também inclui determinar o número de entidades candidatas a partir de uma base de conhecimento que foi referida pela extensão. Para cada um do número de entidades candidatas, o método pode incluir determinar uma pontuação de suporte para a entidade candidata para cada recurso no vetor de frase, combinando as pontuações de suporte aditivamente e computando uma probabilidade de que a extensão resolva para a entidade candidata dado o contexto . O método também pode incluir resolver a extensão para uma entidade candidata com uma probabilidade mais alta.

Referências do candidato

Quando vi todos os artigos mencionados nesta patente, quis ler todos e compartilhar links para eles. Esses são artigos selecionados por líderes na indústria de pesquisa, e ter links para eles fornece uma maneira de aprofundar alguns dos pesquisas mais recentes sobre resolução de entidades. Eu irei passar por isso nas próximas semanas. Vejo isso como uma oportunidade de aprender com algumas das melhores fontes disponíveis. Se alguma coisa se destacar sobre qualquer um desses jornais, gostaria de ouvir sua opinião sobre eles.

Chu, et al, “Map-Reduce for Machine Learning on Multicore“, In NIPS, 2006, pp. 281-288. citado pelo requerente.

Friedman, et al, “Additive Logistic Regression: A Statistical View of Boosting”, Special Invited Paper, The Annals of Statistics, vol. 28, No. 2, 2000, pp. 337-407. citado pelo requerente.

“Ambiverse: AIDA: Accurate Online Disambiguation of Named Entities in Text and Tables“, Max Planck Institut Informatik, disponível online em http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/r - esearch / yago-naga / aida /, 2013, 4 páginas. citado pelo requerente.

Baluja et al., “Sugestão e Descoberta de Vídeo para o YouTube: Caminhadas Aleatórias pelo Gráfico de Visualização“, Conferência Internacional sobre a World Wide Web (WWW 2008), 21-25 de abril de 2008, 10 páginas. citado pelo requerente.

Bollacker et al., “Freebase: A Collaborively Created Graph Database for Structuring Human Knowledge“, Proceedings of the ACM SIGMOD International Conference on Management of Data, Jun. 9-12, 2008, pp. 1247-1249. citado pelo requerente.

Bunescu et al., “Using Encyclopedic Knowledge for Named Entity Disambiguation“, Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics, abril de 2006, pp. 9-16. citado pelo requerente.

Cucerzan, Silviu, "Large-Scale Named Entity Disambiguation Based on Wikipedia Data", Proceedings of Joint Conference on Empirical Methods in ze et al.,

“Entity Disambiguation for Knowledge Base Population“, Proceedings of the 23rd International Conference on Computational Linguistics, ago. 2010, pp. 277-285. citado pelo requerente.

Duchi et al., “Efficient Online and Batch Learning Using Forward-Backward Splitting“, Journal of Machine Learning Research, vol. 10, 2009, pp. 2899-2934. citado pelo requerente.

Ferragina et al., “TAGME: On-the-fly Annotation of Short Text Fragments (por Wikipedia Entities)“, Proceedings of the 19th ACM International Conference on Information and Knowledge Management, out. 26-30, 2010, pp. 1625- 1628. citado pelo requerente.

Finin et al., “Using Wikitology for Cross-Document Entity Coreference Resolution“, Association for the Advancement of Artificial Intelligence, 2009, pp. 29-35. citado pelo requerente.

Finkel et al., “Incorporating Non-local Information into Information Extraction Systems by Gibbs Sampling“, Proceedings of the 43rd Annual Meeting of the ACL, Jun. 2005, 363-370. citado pelo requerente.

Gabrilovich et al., “Harnessing the Expertise of 70,000 Human Editors: Knowledge-Based Feature Generation for Text Categorization“, Journal of Machine Learning Research, vol. 8, 2007, pp. 2297-2345. citado pelo requerente.

Hachey et al., “Evaluating Entity Linking with Wikipedia“, Artificial Intelligence, vol. 194, 2013, pp. 130-150. citado pelo requerente.

Haghighi et al., "Resolução simples de co-referência com recursos sintáticos e semânticos ricos", Proceedings of Conference on Empirical Methods in Natural Language Processing, de 6 a 7 de agosto de 2009, pp. 1152-1161. citado pelo requerente.

Han et al., “A Generative Entity-Mention Model for Linking Entities with Knowledge Base“, Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics: Human Language Technologies – vol. 1, 19-24 de junho de 2011, pp. 945-954. citado pelo requerente.

Han et al., "An Entity-Topic Model for Entity Linking", Proceedings of the 2012 Joint Conference on Empirical Methods in Natural Language Processing e Computational Natural Language Learning, julho 12-14, 2012, pp. 105-115. citado pelo requerente.

Han et al., “Named Entity Disambiguation by Leveraging Wikipedia Semantic Knowledge“, Proceedings of the 18th ACM Conference on Information and Knowledge Management, novembro 2-6, 2009, pp. 215-224. citado pelo requerente.

Hoffart et al., “Robust Disambiguation of Named Entities in Text“, Proceedings of Conference on Empirical Methods in Natural Language Processing, julho 27-31, 2011, pp. 782-792. citado pelo requerente.

Kulkarni et al., “Collective Annotation of Wikipedia Entities in Web Text“, Proceedings of the 15th ACM International Conference on Knowledge Discovery and Data Mining, Jun. 28-Jul. 1, 2009, pp. 457-466. citado pelo requerente.

Kwiatkowski et al., “Lexical Generalization in CCG Grammar Induction for Semantic Parsing“, Proceedings of Conference on Empirical Methods in Natural Language Processing, julho 27-31, 2011, pp. 1512-1523. citado pelo requerente.

Lin et al., “Entity Linking at Web Scale“, Proc. of the Joint Workshop on Automatic Knowledge Base Construction & Web-scale Knowledge Extraction, Jun. 7-8, 2012, pp. 84-88. citado pelo requerente.

Mayfield et al., “Cross-Document Coreference Resolution: A Key Technology for Learning by Reading“, Spring Symposium on Learning by Reading and Learning to Read, março de 2009, 6 páginas. citado pelo requerente.

Mihalcea et al., “Wikify! Linking Documents to Encyclopedic Knowledge “, Proceedings of the 16th ACM Conference on Information and Knowledge Management, novembro 6-8, 2007, pp. 233-241. citado pelo requerente.

Milne et al., “Learning to Link with Wikipedia“, Proceedings of the 17th ACM Conference on Information and Knowledge Management, outubro 26-30, 2008, pp. 509-518. citado pelo requerente.

Nigam et al., “Text Classification from Labeled and Unlabeled Documents using EM“, Machine Learning, vol. 39, 2000, pp. 103-134. citado pelo requerente.

Orr et al., “Learning from Big Data: 40 Million Entities in Context“, disponível online <https://research.googleblog.com/2013/03/learning-from-big-data-40-mil- lion.html >, 8 de março de 2013, 6 páginas. citado pelo requerente.

Ratinov et al., “Local and Global Algorithms for Disambiguation to Wikipedia“, Proceedings of the 49th Annual Meeting of the Association for Computational Linguistics, Jun. 19-24, 2011, pp. 1375-1384. citado pelo requerente.

Sil et al., “Linking Named Entities to Any Database“, Proceedings of Joint Conference on Empirical Methods in Natural Language Processing e Computational Natural Language Learning, julho 12-14, 2012, pp. 116-127. citado pelo requerente.

Subramanya et al., “Semi-Supervised Learning with Measure Propagation“, Journal of Machine Learning Research, vol. 12, 2011, pp. 3311-3370. citado pelo requerente.

Talukdar et al., “Experiments in Graph-based Semi-Supervised Learning Methods for Class-Instance Acquisition“, Proceedings of the 48th Annual Meeting of the Association for Computational Linguistics, jul. 11-16, 2010, pp. 1473-1481. citado pelo requerente.

Talukdar et al., “New Regularized Algorithms for Transductive Learning“, Proceedings of the European Conference on Machine Learning and Knowledge Discovery in Databases: Part II, 2009, pp. 442-457. citado pelo requerente.

Talukdar et al., "Weakly-Supervised Acquisition of Labeled Class Instances using Graph Random Walks", Proceedings of Conference on Empirical Methods in Natural Language Processing, outubro de 2008, pp. 582-590. citado pelo requerente.

A patente descreve um processo para eliminar a ambigüidade de entidades, mas me pareceu que ser capaz de examinar os recursos da patente era valioso e que valia a pena focar nesse aspecto da patente, pois aprendi mais sobre como eles estavam se saindo resolução da entidade. Eu vou passar por eles. Isso pode parecer um exercício acadêmico, mas a resolução de entidades agora faz parte da forma como o Google lida com as consultas e vale a pena conhecer algo a respeito. Quando o Google vê “Novo Castelo” em uma consulta, ele deve saber se a cerveja, o time ou o local está sendo referido.

Como você mostraria isso para um mecanismo de pesquisa?