谷歌改变了他们在知识图中理解地名的方式
已发表: 2018-02-16Google 知识图中的地名
在谷歌有知识图谱之前,它已经建立了一个事实库。 谷歌在 2006 年为其可浏览事实存储库申请了专利,我在一篇题为“谷歌可浏览事实存储库——早期知识图谱”的文章中写到了该专利。 Fact Repository 的共同发明人之一是 Andrew W. Hogue,他在谷歌负责一个名为 Annotation Framework 的项目,并参与了谷歌对 Meta Web 的收购,后者建立了知识库被称为 Freebase,这导致了 Google 知识图的创建。 当您看到 Google 引用的 Fact Repository 时,请考虑知识库。
出现在 Web 等文档集合中的重要事实类型之一是地名。
Google 已获得一项专利,该专利最初于 2007 年以“确定事实存储库中地名的地理位置”的名称提交。
正如我最近在基于知识的搜索中的相关实体分数一文中所写,Google 可以使用有关实体属性的信息来提供搜索结果。 因此,当 Google 为知识库提取数据(例如地名)时,这是一个重要的事实,它有助于获取正确信息。 知识库更丰富、更有用,可以使此类信息正确无误。
来自 Google 的更新地名专利
谷歌本周获得了关于地名和事实存储库专利的延续版本。 延续专利是一种更新的专利,它使用被延续专利的原始申请日期,通常包含相同的极其相似的描述文本和图像,但具有更新的权利要求。 如果我们查看 2007 年提交的原始专利和 2012 年提交的延续专利,我们可以看到权利要求已从较早的专利更改为最新且最近授予的专利。
在专利的第一个版本中似乎发挥了重要作用的一个问题是获取正确的地名事实。 该专利告诉我们这个问题:
从不同来源提取的地名具有各种格式,可能包含印刷错误、遗漏或不清楚的语言。 一个词是否代表一个地名,不同的地名是否代表同一地点,也可能存在歧义。 有一种方法来识别地名的精确位置是很有用的。
该专利第一个版本的声明让我想起了我写的一篇文章,名为 Google 如何为 Direct Answers 证实事实。
我们看到这样的行已从专利的第二版中的权利要求中删除:
2.如权利要求1所述的方法,其中识别第一潜在地名包括检查一个或多个大写单词的序列。
3.如权利要求1所述的方法,其特征在于,识别第一潜在地名包括识别所述值中的第二潜在地名并检查围绕所述第二潜在地名的词。
4.如权利要求1所述的方法,其特征在于,识别第一潜在地名包括识别相同地名的各种表示。
5.如权利要求1所述的方法,其中通过比较包含相同属性的事实已经确定所述属性对应于地名
我想起了在 Google 本地搜索中提到某个地方时讨论的 NAP(姓名、地址、电话号码)一致性。

该专利的新版本更侧重于标记地名,因为它们与地理坐标一起提及,例如纬度和经度(如专利插图所示)。 如果我们查看新专利的一些初始权利要求,我们会看到这个新焦点:
2.如权利要求1所述的方法,其特征在于,存储所述第一地理位置坐标包括用所述第一地理位置坐标标记所述第一潜在地名。
3.如权利要求2所述的方法,其特征在于,加标签包括将所述第一潜在地名转换成到地图视图的超链接。
4.如权利要求1所述的方法,其特征在于,消除冲突的可能地理位置坐标之间的歧义包括检查来自源文档的源文档的上下文。
5.如权利要求1所述的方法,其特征在于,确定所述第一潜在地名的地理位置坐标包括检查多个地名。 多个地名中的每一个都预先用其各自的地理位置坐标标记。
新版专利在这里:
确定事实资料库中地名的地理位置
发明人:David J. Vespe 和 Andrew Hogue
受让人:谷歌有限责任公司
美国专利:9,892,132
授予日期:2018 年 2 月 13 日
提交时间:2012 年 12 月 31 日
抽象的
一种用地理位置坐标标记地名的系统和方法,地名与计算机系统存储器中的对象集合相关联。 该系统和方法处理存储在存储器中的对象内的文本串以识别第一潜在地名。 该系统和方法确定第一潜在地名的地理位置坐标是否已知。 该系统和方法将与存储器中的对象相关联的第一潜在地名识别为地名。 当第一识别出的地名的地理位置坐标已知时,该系统和方法用其地理位置坐标标记与存储器中的对象相关联的第一识别出的地名。 当找到多个地名时,该系统和方法消除地名的歧义。
关于地名的事后思考
有人在 Twitter 上问我专利是否有时变得毫无用处并停止被搜索引擎使用,或者搜索引擎是否因为还有一些时间而被迫使用他们获得专利的发明。 专利确实会过期。 亚马逊获得的一键式专利已经到期,斯坦福大学拥有(并授权给谷歌)的原始 PageRank 专利已经到期。 当一个过程被开发并获得专利时,专利背后的过程可能会发生变化,并且可能会提交像我在这篇文章中所写的那样的延续专利。
如果您留意它们,延续专利可能会暗示公司可能正在采取的方法发生变化。 例如,在这个地名专利中,重点似乎从基于拼写一致性的确证事实和提及的特定实体的事实转移到一些可能不会改变的事实,例如地理坐标。 所以,是的,专利确实会发生变化,它们背后的流程也是如此。 找到一项延续专利并尝试了解可能发生的变化是很有趣的。
