O Google muda como eles entendem os nomes de lugares em um gráfico de conhecimento
Publicados: 2018-02-16Nomes de lugares no Mapa de conhecimento do Google
Antes de o Google ter um Mapa de conhecimento, ele construiu um repositório de fatos. O Google registrou uma patente para seu Browseable Fact Repository em 2006, e eu escrevi sobre essa patente em um post intitulado Google's Browseable Fact Repository - an Early Knowledge Graph. Um dos co-inventores do Repositório de Fatos foi Andrew W. Hogue, que estava encarregado de um projeto no Google denominado Annotation Framework e também estava envolvido na aquisição pelo Google da Meta Web, que construiu a base de conhecimento conhecido como Freebase, e que levou à criação do Mapa do Conhecimento no Google. Quando você vir o repositório de fatos referenciado no Google, pense na base de conhecimento.
Um dos tipos de fatos importantes que aparecem em uma coleção de documentos, como a Web, são os nomes de lugares.
O Google recebeu uma patente que foi originalmente registrada em 2007 com o nome de Determinação de localizações geográficas para nomes de lugares em um repositório de fatos.
Como escrevi recentemente em uma postagem Pontuações de entidades relacionadas em pesquisas baseadas em conhecimento, o Google pode usar informações sobre propriedades de entidades para fornecer resultados de pesquisa. Portanto, quando o Google extrai dados para uma base de conhecimento, como o nome de um lugar, esse é um fato importante que pode ser útil para corrigir. A base de conhecimento é mais rica e útil para ter esse tipo de informação correta.
Uma Patente de Nomes de Locais Atualizada do Google
O Google recebeu uma versão de continuação de sua patente sobre nomes de lugares e repositórios de fatos esta semana. Uma patente de continuação é uma patente atualizada que usa a data de depósito original da patente que está sendo continuada e geralmente contém o mesmo texto de descrição e imagens extremamente semelhantes, mas tem reivindicações atualizadas. Se olharmos para a patente original depositada em 2007 e a patente de continuação que foi solicitada em 2012, podemos ver que as reivindicações foram alteradas da patente anterior para esta patente mais recente concedida recentemente.
Uma das preocupações que parece ter desempenhado um papel importante na primeira versão da patente foi obter fatos sobre nomes de lugares corretos. A patente nos fala sobre esta preocupação:
Os nomes de lugares extraídos de fontes diferentes têm vários formatos e podem conter erros tipográficos, omissões ou linguagem pouco clara. Também pode haver ambigüidade sobre se uma palavra representa o nome de um lugar e se nomes de lugares diferentes representam o mesmo local. É útil ter uma maneira de identificar a localização precisa do nome de um lugar.
As reivindicações da primeira versão da patente me lembraram de um post que escrevi chamado Como o Google estava corroborando fatos para respostas diretas.
Vemos linhas como essas que foram removidas das reivindicações na segunda versão da patente:
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a identificação de um primeiro nome de local potencial compreende o exame de sequências de uma ou mais palavras em maiúsculas.
3. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a identificação de um primeiro nome de local potencial compreende a identificação de um segundo nome de local potencial no valor e o exame de palavras ao redor do segundo nome de local potencial.
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que identificar um primeiro nome de lugar potencial compreende a identificação de várias representações do mesmo nome de lugar.
5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o atributo foi determinado para corresponder a um nome de local comparando fatos contendo o mesmo atributo
Lembro-me da consistência do NAP (nome, endereço, número de telefone) discutida nas menções de um lugar na pesquisa local do Google.

A nova versão da patente se concentra muito mais na marcação de nomes de lugares à medida que são mencionados com coordenadas geográficas, como latitude e longitude (como visto nas ilustrações da patente). Se olharmos para algumas das reivindicações iniciais da nova patente, veremos este novo foco:
2. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que o armazenamento das primeiras coordenadas de localização geográfica inclui marcar o primeiro nome de local potencial com as primeiras coordenadas de localização geográfica.
3. Método, de acordo com a reivindicação 2, caracterizado pelo fato de que a marcação inclui a conversão do primeiro nome de local potencial em um hiperlink para uma visualização de mapa.
4. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que a eliminação da ambigüidade entre as possíveis coordenadas de localização geográfica em conflito, inclui o exame de um documento de origem a partir de documentos de origem para o contexto.
5. Método, de acordo com a reivindicação 1, caracterizado pelo fato de que determinar as coordenadas de localização geográfica para o primeiro nome de lugar potencial compreende examinar uma pluralidade de nomes de lugares. Cada um da pluralidade de nomes de lugares foi marcado previamente com suas respectivas coordenadas de localização geográfica.
A nova versão da patente está aqui:
Determinar localizações geográficas para nomes de lugares em um repositório de fatos
Inventores: David J. Vespe e Andrew Hogue
Cessionário: Google LLC
Patente dos EUA: 9.892.132
Concedido: 13 de fevereiro de 2018
Arquivado: 31 de dezembro de 2012
Resumo
Um sistema e método para marcar nomes de lugares com coordenadas de localização geográfica, os nomes de lugares associados a uma coleção de objetos na memória de um sistema de computador. O sistema e o método processam uma string de texto dentro de um objeto armazenado na memória para identificar um primeiro nome de lugar potencial. O sistema e o método determinam se as coordenadas de localização geográfica são conhecidas para o primeiro nome de lugar potencial. O sistema e o método identificam o primeiro nome de lugar potencial associado a um objeto na memória como um nome de lugar. O sistema e o método marcam o primeiro nome de lugar identificado associado a um objeto na memória com suas coordenadas de localização geográfica quando as coordenadas de localização geográfica para o primeiro nome de lugar identificado são conhecidas. O sistema e o método eliminam a ambigüidade de nomes de lugares quando vários nomes de lugares são encontrados.
Reflexões posteriores sobre nomes de lugares
Alguém me perguntou no Twitter se as patentes às vezes se tornavam inúteis e paravam de ser usadas pelos mecanismos de busca, ou se os mecanismos de busca eram forçados a usar invenções que patentearam porque ainda havia algum tempo sobrando para eles. As patentes expiram. A patente de um clique que a Amazon adquiriu expirou, e a patente original do PageRank de propriedade da Universidade de Stanford (e licenciada para o Google) expirou. Quando um processo é desenvolvido e patenteado, o processo por trás da patente pode mudar, e uma patente de continuação como a que escrevi neste artigo pode ser registrada.
Se você ficar de olho nelas, as patentes de continuação podem fornecer dicas de mudanças nas abordagens que uma empresa pode estar adotando. Por exemplo, nesta patente de nome de local, o foco parece estar mudando da corroboração de fatos com base na consistência na grafia e nos fatos mencionados sobre entidades específicas para alguns fatos que podem não mudar, como coordenadas geográficas. Então, sim, as patentes mudam, assim como os processos por trás delas. É interessante encontrar uma patente de continuação e tentar entender o que pode ter mudado.
