Google меняет способ понимания географических названий в сети знаний

Опубликовано: 2018-02-16

Названия мест в сети знаний Google

Прежде чем у Google появилась сеть знаний, она построила репозиторий фактов. Google подал патент на свой просматриваемый репозиторий фактов в 2006 году, и я написал об этом патенте в посте под названием «Обзорный репозиторий фактов Google - ранняя сеть знаний». Одним из соавторов репозитория фактов был Эндрю У. Хог, который руководил проектом в Google, называвшимся Annotation Framework, а также участвовал в приобретении Google Meta Web, создавшего базу знаний. известная как Freebase, что привело к созданию Сети знаний в Google. Когда вы видите, что репозиторий фактов упоминается в Google, подумайте о базе знаний.

Один из важных типов фактов, которые появляются в коллекции документов, таких как Интернет, - это названия мест.

Google получил патент, который был первоначально подан в 2007 году под названием «Определение географического положения для географических названий в хранилище фактов».

Как я недавно писал в сообщении «Оценки связанных сущностей в поисках, основанных на знаниях», Google может использовать информацию о свойствах сущностей для предоставления результатов поиска. Итак, когда Google извлекает данные для базы знаний, такие как название места, это важный факт, который может помочь исправить. База знаний богаче и полезнее для того, чтобы такая информация была правильной.

Обновленный патент на географические названия от Google

На этой неделе Google получила дополнительную версию своего патента о географических названиях и хранилищах фактов. Патент на продолжение - это обновленный патент, в котором используется исходная дата подачи заявки на продолжение патента и который обычно содержит тот же чрезвычайно похожий текст описания и изображения, но с обновленной формулой изобретения. Если мы посмотрим на исходный патент, поданный в 2007 году, и дополнительный патент, который был подан в 2012 году, мы увидим, что формула изобретения была изменена с более раннего патента на этот новый и недавно выданный патент.

Одна из проблем, которая, по-видимому, сыграла важную роль в первой версии патента, заключалась в том, чтобы получить правильные факты о географических названиях. Патент сообщает нам об этой проблеме:

Названия мест, извлеченные из разных источников, имеют разный формат и могут содержать опечатки, пропуски или нечеткий язык. Также может возникнуть двусмысленность в отношении того, представляет ли слово название места и представляют ли разные названия одно и то же место. Полезно иметь способ определить точное местоположение географического названия.

Заявления по первой версии патента напомнили мне о написанном мною посте под названием «Как Google подтверждает факты для прямых ответов».

Мы видим такие строки, которые были удалены из формулы второй версии патента:

2. Способ по п.1, в котором идентификация первого потенциального названия места включает изучение последовательностей из одного или нескольких слов с заглавной буквы.

3. Способ по п.1, в котором идентификация первого потенциального названия места включает идентификацию второго потенциального названия места в значении и изучение слов, окружающих второе потенциальное название места.

4. Способ по п.1, в котором идентификация первого потенциального названия места включает идентификацию различных представлений одного и того же названия места.

5. Способ по п.1, в котором атрибут был определен как соответствующий названию места путем сравнения фактов, содержащих один и тот же атрибут.

Мне вспоминается согласованность NAP (имя, адрес, номер телефона), о которой говорилось при упоминании места в локальном поиске Google.

В новой версии патента больше внимания уделяется маркировке названий мест, поскольку они упоминаются с географическими координатами, такими как широта и долгота (как показано на иллюстрациях к патенту). Если мы посмотрим на некоторые из первоначальных притязаний на новый патент, мы увидим новый фокус:

2. Способ по п.1, в котором сохранение первых координат географического местоположения включает в себя пометку первого потенциального названия места с первыми координатами географического местоположения.

3. Способ по п.2, в котором тегирование включает в себя преобразование первого потенциального названия места в гиперссылку на вид карты.

4. Способ по п.1, в котором устранение неоднозначности между конфликтующими возможными координатами географического местоположения включает в себя изучение исходного документа из исходных документов на предмет контекста.

5. Способ по п.1, в котором определение координат географического местоположения для первого потенциального названия места включает исследование множества названий места. Каждое из множества географических названий было ранее помечено соответствующими координатами географического местоположения.

Новая версия патента находится здесь:

Определение географических мест для названий мест в хранилище фактов
Изобретатели: Дэвид Дж. Веспе и Эндрю Хог.
Цессионарий: Google LLC
Патент США: 9,892,132.
Выдано: 13 февраля 2018 г.
Подана: 31 декабря 2012 г.

Абстрактный

Система и метод маркировки названий мест с координатами географического местоположения, названий мест, связанных с набором объектов в памяти компьютерной системы. Система и метод обрабатывают текстовую строку в объекте, хранящемся в памяти, для идентификации первого потенциального названия места. Система и метод определяют, известны ли координаты географического местоположения для первого потенциального названия места. Система и метод идентифицируют первое потенциальное название места, связанное с объектом в памяти, как название места. Система и метод маркируют первое идентифицированное название места, связанное с объектом в памяти, с его координатами географического местоположения, когда известны координаты географического местоположения для первого идентифицированного названия места. Система и метод устраняют неоднозначность названий мест при обнаружении нескольких названий мест.

Запоздалые мысли о географических названиях

Я попросил кого-то спросить меня в Твиттере, иногда ли патенты становились бесполезными и перестали использоваться поисковыми системами, или же поисковые системы были вынуждены использовать изобретения, которые они запатентовали, потому что у них еще оставалось время. Срок действия патентов истекает. Срок действия патента в один клик, который приобрела Amazon, истек, а срок действия оригинального патента PageRank, принадлежащего Стэнфордскому университету (и лицензированного Google), истек. Когда процесс разработан и запатентован, процесс, лежащий в основе патента, может измениться, и может быть подан дополнительный патент, подобный тому, о котором я писал в этом посте.

Если вы будете следить за ними, дополнительные патенты могут дать подсказки об изменениях подходов, которые может использовать компания. Например, в этом патенте на название места фокус, по-видимому, смещается с подтверждающих фактов, основанных на согласованности в написании и фактах, упомянутых о конкретных объектах, на некоторые факты, которые могут не измениться, такие как географические координаты. Так что да, патенты меняются, как и процессы, стоящие за ними. Интересно найти продолжение патента и попытаться понять, что могло измениться.