Первые дни голосового поиска в Google

Опубликовано: 2018-07-26

голосовой поиск в Google

Впервые вспомнил голосовой поиск от Google

Я помню, как в 2007 году ехал на конференцию в Нью-Йорк. Я взял такси от Пенсильванского вокзала до своего отеля, и перед отелем было полно специалистов по поисковой оптимизации, прибывших на конференцию. Я столкнулся с Лореном Бейкером (владельцем журнала Search Engine Journal), с которым раньше работал, и он звонил в нечто под названием Goog 411, автоматизированный телефонный справочник, который Google решил вести в течение трех лет. В то время я понятия не имел, как часто я буду использовать свой телефон для поиска информации о компаниях, или что голосовой поиск станет таким же популярным, как сейчас, для телефонов и устройств поиска по громкоговорителям.

Патент Google, выданный на этой неделе, касается голосового поиска по спискам компаний и относится к «автоматизированной справочной системе 411», которая может взаимодействовать с человеком таким образом, что «имитирует взаимодействие оператора-человека с вызывающим абонентом».

Google теперь самостоятельно выполняет автоматические телефонные звонки

Патент напомнил мне о системе Duplex, которая была продемонстрирована на конференции Google I / O в начале этого года. В этой демонстрации демонстрировались звонки, которые могут быть сделаны от имени человека с помощью Google Assistant. В этом патенте говорится о вызовах, которые вы могли бы сделать в автоматизированную систему, которая могла бы ответить и предоставить вам информацию. Патент сообщает нам, что он включает:

Обычная автоматизированная система включает в себя механизм распознавания речи, который распознает ввод речи вызывающего абонента. Автоматизированная система включает в себя поисковую систему, которая выполняет поиск в базе данных телефонного номера конкретного предприятия, запрошенного вызывающим абонентом. Если механизм распознавания речи не может распознать речевой ввод вызывающего абонента, механизм распознавания может попросить вызывающего абонента повторить ввод, задать вызывающему абоненту вопросы, устраняющие неоднозначность, или передать вызов оператору-человеку.

Итак, как работает голосовой поиск, когда кто-то ищет компании по чему-то вроде голосового запроса? Патент предоставляет некоторые подробности, которые говорят нам о взаимодействиях, которые мы можем иметь с компьютерной системой, которая может принимать наши запросы и искать информацию, чтобы вернуться к нам.

Одним из первых шагов является запрос «информации о типе бизнеса или категории» в дополнение к информации о местоположении и, возможно, идентификатору конкретной компании. На этот запрос может ответить поисковая машина, выполняющая поиск в базе данных, чтобы найти информацию (например, номер телефона) о конкретной компании.

Информация о типе бизнеса может быть предоставлена ​​путем ввода данных пользователем, что может быть информацией, предоставленной пользователями во время прошлых звонков или поисковых действий пользователей в Интернете, таких как поиск по ключевым словам и переходы по ссылкам. Патент указывает на этот пример:

… Система может установить новый тип бизнеса, если несколько пользователей набрали определенное ключевое слово или фразу, а затем щелкнули по определенным компаниям, что указывает на то, что пользователи связали определенные компании с ключевым словом или фразой.

То, что мы, похоже, не видим из этого патента, - это то, что Google узнал из своей службы Goog 411, которую они использовали для голосового поиска по телефону. Они сообщили нам в официальном блоге Google, что прекращают обслуживание, в сообщении «Прощай, старому другу: 1-800-GOOG-411 в 2010 году». Как говорится в этом сообщении:

GOOG-411 был первым сервисом распознавания речи от Google и помог заложить основу для более амбициозных сервисов, теперь доступных на смартфонах, таких как:

  • Голосовой поиск - ищите в Google голосом, а не вводом текста.
  • Голосовой ввод - заполните любое текстовое поле на Android, произнося слова, а не печатая.
  • Голосовые действия - управляйте своим телефоном Android с помощью голосовых команд. Например, вы можете быстро и легко позвонить в любую компанию, просто назвав ее название.

Этот совсем недавно выданный патент на голосовой поиск в автоматизированном справочнике, похоже, не описывает ничего такого нового. Читая о Goog 411, выяснилось, что он бесплатно предоставлял звонящим информацию о компаниях, чтобы Google мог собирать голосовые данные. Как заявила Марисса Майер в интервью Infoworld:

Эксперты по распознаванию речи, которые у нас есть, говорят: если вы хотите, чтобы мы построили действительно надежную речевую модель, нам нужно много фонем, то есть слога, произносимого определенным голосом с определенной интонацией. Так что нам нужно, чтобы много людей говорили, говорили разные вещи, чтобы мы могли в конечном итоге на этом тренироваться. … Итак, 1-800-GOOG-411 об этом: получение набора различных образцов речи, чтобы, когда вы звоните или мы пытаемся получить голос из видео, мы могли сделать это с высокой точностью.

Этот патент выглядит как нечто, что может быть подано для запуска чего-то вроде Goog 411, поэтому дата подачи заявки на патент в 2016 году была неожиданной. Патент находится по адресу:

Поиск по бизнесу или личному списку
Изобретатели: Брайан Строп, Уильям Дж. Бирн и Франсуаза Бофэ.
Цессионарий: GOOGLE LLC
Патент США: 10,026,402.
Выдано: 17 июля 2018 г.
Подана: 3 октября 2016 г.

Абстрактный

Метод поиска по списку компаний с помощью голосовых команд включает получение через Интернет с пользовательского терминала запроса, произнесенного пользователем, который включает в себя речевое высказывание, представляющее категорию товаров, речевое высказывание, представляющее товарный элемент, и речевое высказывание, представляющее географическое положение. Способ включает в себя распознавание географического местоположения с помощью механизма распознавания речи на основе речевого высказывания, представляющего географическое местоположение, распознавание категории товаров с помощью механизма распознавания речи на основе речевого высказывания, представляющего категорию товаров, распознавание предмета товара с помощью речи. механизм распознавания на основе речевого высказывания, представляющего товар, поиск предприятий в списке предприятий в пределах или вблизи признанного географического местоположения для выбора предприятий, отвечающих на запрос, произнесенный пользователем, и отправка в пользовательский терминал информации, относящейся, по крайней мере, к некоторым из отзывчивый бизнес.

Голосовой поиск на вынос

Я просмотрел этот патент в базе данных PAIR (Поиск информации о патентных заявках) на веб-сайте USPTO, чтобы узнать о нем больше. База данных PAIR содержит список действий по судебному преследованию патентов, включая такие вещи, как отказы. Этот патент был отклонен, а формула была изменена до его выдачи. Была предоставлена ​​более ранняя версия этого патента, которая была подана в 2015 году под названием Business Listing Search. Google отозвал эту версию этого патента, чтобы вместо нее можно было предоставить эту версию. Казалось, что между ними не так много различий. У меня были некоторые ожидания, что Google может использовать голосовые данные, которые они собрали при запуске Goog 411 (а они могли это сделать), и был удивлен, не увидев ничего об этом, упомянутого в этом патенте.

Есть и другие патенты, связанные с голосовым поиском, и на них, возможно, стоит обратить внимание, но этот патент об автоматизированном подходе к составлению списков компаний действительно кажется тем, что кто-то подаст, чтобы попытаться помешать другим запускать сервис Goog 411. Если бы сервис Goog 411 был таким отличным способом сбора голосовых данных, то удержание других от сбора таких данных, возможно, было бы неплохой идеей.

В документе, опубликованном Google, который разделяет некоторых авторов с этим патентом, рассказывается о роли Goog 411 в обеспечении голосового поиска в Google, и на него стоит обратить внимание. он находится по адресу: Голосовой поиск Google: пример из практики. Google дает больше о голосовом поиске, и я отследил еще несколько патентов, которые рассказывают нам больше о том, что они изучали и над чем работали.

Другие патенты для голосового поиска

Вместо того, чтобы слишком глубоко копаться в других патентах, я просто перечислю несколько из них, чтобы любой, кто заинтересован в более глубоком изучении голосового поиска, мог это сделать. Все больше патентов сосредоточены на голосовом поиске, но я не видел никаких подробностей о поиске компаний.

Автоматическое обновление языковой модели
Изобретатели: Майкл Х. Коэн, Шумеет Балуджа, Педро Дж. Морено Менгибар
Цессионарий: Google LLC (нет данных)
Патент США: 9,953,636.
Выдано: 24 апреля 2018 г.
Подана: 9 октября 2015 г.

Абстрактный

Способ создания модели распознавания речи включает в себя доступ к базовой модели распознавания речи, получение информации, относящейся к недавнему использованию языка, из поисковых запросов и изменение модели распознавания речи для проверки вероятностей части появления звука на основе информации. Часть звука может включать слово. Кроме того, способ создания модели распознавания речи включает в себя получение в поисковой машине от удаленного устройства аудиозаписи и расшифровки, которые по существу представляют, по меньшей мере, часть аудиозаписи, синхронизацию расшифровки с аудиозаписью, извлечение одного или нескольких буквы из транскрипции и извлечение связанного произношения одной или нескольких букв из аудиозаписи и создание словарной статьи в словаре произношения.

Распознавание речи с помощью рекуррентных нейронных сетей на основе внимания
Изобретатели: Уильям Чан, Навдип Джайтли, Куок В. Ле, Ориол Виньялс и Ноам М. Шазир.
Цессионарий: Google Inc.
Патент США:
Выдано: 24 октября 2017 г.
Подана: 26 февраля 2016 г.

Абстрактный

Способы, системы и устройства, включая компьютерные программы, закодированные на компьютерных носителях информации, для распознавания речи. Один способ включает в себя получение входной акустической последовательности, входной акустической последовательности, представляющей высказывание, и входной акустической последовательности, содержащей соответствующее представление акустического признака на каждом из первого количества временных шагов; обработку входной акустической последовательности с использованием первой нейронной сети для преобразования входной акустической последовательности в альтернативное представление для входной акустической последовательности; обработка альтернативного представления для входной акустической последовательности с использованием рекуррентной нейронной сети на основе внимания (RNN) для генерации для каждой позиции в порядке выходной последовательности набора оценок подстроки, который включает в себя соответствующую оценку подстроки для каждой подстроки в наборе подстроки; и генерируют последовательность подстрок, которые представляют транскрипцию высказывания.

Обучение произношению слов на основе данных и оценка с помощью краудсорсинга на основе оценок произношения фонем слова
Изобретатели: Фучун Пэн, Франсуаза Бофай, Брайан Строп, Синь Лей, Педро Дж. Морено Менгибар и Тревор Д. Строхман.
Цессионарий: Google Inc.
Патент США: 9,741,339.
Выдано: 22 августа 2017 г.
Подана: 28 июня 2013 г.

Абстрактный

Способы, системы и устройства, включая компьютерные программы, закодированные на компьютерном носителе данных, для определения произношения определенных терминов. Способы, системы и устройство включают в себя действия по получению аудиовыборок речи, соответствующих конкретному термину, и получение возможных вариантов произношения для конкретного термина. Дальнейшие действия включают в себя создание для каждого кандидата произношения для конкретного термина и аудиосэмпла речи, соответствующего конкретному термину, оценки, отражающей уровень сходства между кандидатским произношением и аудио-выборкой, при этом упомянутая оценка для конкретного термина полученный с использованием минимума отдельных партитур фонем, составляющих термин. Дополнительные действия включают агрегирование оценок для каждого произношения кандидата и добавление одного или нескольких вариантов произношения для конкретного термина в словарь произношения на основе агрегированных оценок для вариантов произношения.