Google 語音搜索的早期

已發表: 2018-07-26

谷歌語音搜索

我第一次記得來自 Google 的語音搜索

我記得 2007 年去紐約市參加一個會議。我從 Penn Station 坐出租車到我的酒店，酒店門前擠滿了前來參加會議的 SEO。我遇到了 Loren Baker（搜索引擎雜誌的所有者），我曾經和他一起工作，他正在給一個叫做 Goog 411 的東西打電話，這是一個自動電話目錄，谷歌決定運行三年。那時我不知道我最終會多久使用我的手機來查找有關企業的信息，或者語音搜索會像現在一樣流行於手機和揚聲器搜索設備。

本週授予的一項谷歌專利是關於對企業列表的語音搜索，並提到“自動 411 目錄輔助系統”，它可能以“模擬人工操作員與來電者互動的方式”與人互動。

谷歌現在正在自己撥打自動電話

該專利讓我想起了今年早些時候在 Google I/O 大會上展示的 Duplex 系統。雖然該演示展示了谷歌助手可以代表一個人撥打的電話。該專利討論了您可以向自動化系統撥打電話，該系統可以接聽並為您提供信息。該專利告訴我們，它涉及：

傳統的自動化系統包括識別呼叫者的語音輸入的語音識別引擎。該自動化系統包括一個搜索引擎，用於在數據庫中搜索呼叫者請求的特定企業的電話號碼。如果語音識別引擎無法識別呼叫者的語音輸入，則識別引擎可以要求呼叫者重複輸入、詢問呼叫者消除歧義的問題或將呼叫轉接給人工接線員。

那麼，當有人通過語音查詢之類的方式尋找企業時，語音搜索如何工作？該專利提供了一些詳細信息，告訴我們我們可能與計算機系統進行交互，該計算機系統可能會接受我們的查詢並蒐索返回給我們的信息。

第一步是除了位置信息和可能的特定業務的標識符之外，還詢問“業務類型或類別信息”。可以用搜索數據庫來搜索關於特定企業的信息（例如，電話號碼）的搜索引擎來響應該查詢。

業務類型信息可以由用戶輸入提供，可以是用戶在過去的通話或用戶的在線搜索活動中提供的信息，例如關鍵字搜索和點擊。該專利指出了這個例子：

...如果多個用戶輸入某個關鍵字或詞組，然後點擊特定業務，則係統可能會建立新的業務類型，表明用戶將特定業務與該關鍵字或詞組相關聯。

我們似乎沒有從這項專利中看到谷歌從他們的 Goog 411 服務中學到的東西，他們曾經在電話上提供基於語音的搜索。他們在 Google 官方博客上告訴我們，他們將在 2010 年與老朋友再見：1-800-GOOG-411 的帖子中終止該服務。正如該帖子告訴我們的那樣：

GOOG-411 是 Google 的第一個語音識別服務，它為現在在智能手機上提供的更雄心勃勃的服務奠定了基礎，例如：
語音搜索——通過說話而不是打字來搜索谷歌。
語音輸入 – 通過說話而不是打字來填寫 Android 上的任何文本字段。
語音操作 – 使用語音命令控制您的 Android 手機。例如，您只需說出其名稱即可快速輕鬆地呼叫任何企業。

這項最近授予的自動目錄語音搜索專利似乎並沒有描述什麼新鮮事。閱讀有關 Goog 411 的信息，它似乎向來電者免費提供有關企業的信息，以使 Google 能夠收集語音數據。正如 Marissa Mayer 在接受 Infoworld 採訪時所說：

我們的語音識別專家說：如果你想讓我們建立一個真正健壯的語音模型，我們需要很多音素，它是一個音節，由具有特定語調的特定聲音說出。所以我們需要很多人說話，說事情，這樣我們最終可以訓練出來。 ……所以 1-800-GOOG-411 就是這樣：獲取一堆不同的語音樣本，這樣當你打電話或我們試圖從視頻中提取語音時，我們可以高精度地做到這一點。

這項專利可能會被提交，以便可以推出像 Goog 411 這樣的東西，這就是為什麼 2016 年專利的申請日期令人驚訝的原因。該專利位於：

企業或個人列表搜索
發明人：Brian Strope、William J. Byrne 和 Francoise Beaufays
受讓人：GOOGLE LLC
美國專利：10,026,402
授予日期：2018 年 7 月 17 日
提交時間：2016 年 10 月 3 日

抽象的

一種使用語音命令搜索企業列表的方法包括通過互聯網從用戶終端接收用戶說出的查詢，該查詢包括表示商品類別的語音、表示商品項目的語音以及代表地理位置的語音。該方法包括基於表示地理位置的語音用語音識別引擎識別地理位置，基於表示商品類別的語音用語音識別引擎識別商品類別，用語音識別商品項目基於代表商品的語音的識別引擎，在識別的地理位置內或附近搜索企業列表以選擇響應用戶說出的查詢的企業，並向用戶發送與至少一些相關的終端信息反應靈敏的企業。

語音搜索要點

我在 USPTO 網站上的 PAIR（專利申請信息檢索）數據庫中查看了該專利，以了解更多相關信息。 PAIR 數據庫包含專利申請中的訴訟記錄，包括駁回等事項。該專利被駁回，並在其被授予之前修改了權利要求。該專利的早期版本於 2015 年以企業列表搜索的名義提交，並已獲得批准。谷歌撤回了該專利的那個版本，以便可以改為授予該版本。兩者之間似乎沒有太多區別。我有些期望谷歌可能會使用他們從運行 Goog 411 中收集的語音數據（他們可能已經使用了），但很驚訝沒有看到該專利中提到的任何內容。

還有其他涉及語音搜索的專利，這些專利可能值得一看，但這項關於自動商業列表方法的專利似乎確實是有人會提交的那種試圖阻止其他人運行 Goog 411 服務的專利。如果 Goog 411 服務是收集基於語音的數據的好方法，而不是阻止其他人收集這樣的數據，那可能不是一個壞主意。

谷歌發表的一篇論文與部分作者分享了這項專利，它告訴我們 Goog 411 在導致谷歌語音搜索方面的作用，值得一看。它位於：Google 語音搜索：案例研究。谷歌有更多關於語音搜索的信息，我追踪到了更多專利，這些專利告訴我們更多關於他們一直在研究和研究的內容。

其他語音搜索專利

與其深入研究那些其他專利，我只想在這裡列出一些專利，以便任何有興趣深入研究語音搜索的人都可以這樣做。更多的專利集中在語音搜索上，但我沒有看到任何關於搜索業務的細節。

自動語言模型更新
發明人：Michael H. Cohen、Shumeet Baluja、Pedro J. Moreno Mengibar
受讓人：谷歌有限責任公司（不適用）
美國專利：9,953,636
授予日期：2018 年 4 月 24 日
提交時間：2015 年 10 月 9 日

抽象的

一種用於生成語音識別模型的方法包括訪問基線語音識別模型，從搜索查詢中獲取與最近語言使用相關的信息，以及修改語音識別模型以基於該信息修正一部分聲音出現的概率。聲音的一部分可以包括單詞。此外，一種用於生成語音識別模型的方法包括在搜索引擎處從遠程設備接收音頻記錄和基本上代表音頻記錄的至少一部分的轉錄本、將轉錄本與音頻記錄同步、提取一個或多個從文字記錄中提取字母，從錄音中提取一個或多個字母的關聯發音，生成發音詞典中的詞條。

基於注意力的循環神經網絡的語音識別
發明人：William Chan、Navdeep Jaitly、Quoc V. Le、Oriol Vinyals 和 Noam M. Shazeer
受讓人：谷歌公司
美國專利：
授予日期：2017 年 10 月 24 日
提交時間：2016 年 2 月 26 日

抽象的

方法、系統和裝置，包括在計算機存儲介質上編碼的用於語音識別的計算機程序。一種方法包括獲得輸入聲學序列，該輸入聲學序列表示話語，並且該輸入聲學序列包括在第一數量的時間步長中的每一個的相應聲學特徵表示；使用第一神經網絡處理輸入聲學序列以將輸入聲學序列轉換為輸入聲學序列的替代表示；使用基於注意力的循環神經網絡 (RNN) 處理輸入聲學序列的替代表示，以針對輸出序列順序中的每個位置生成一組子串分數，其中包括一組中每個子串的相應子串分數子串；並生成表示話語轉錄的子串序列。

數據驅動的單詞發音學習和基於單詞音素發音分數的眾包評分
發明人：Fuchun Peng、Francoise Beaufays、Brian Strope、Xin Lei、Pedro J. Moreno Mengibar 和 Trevor D. Strohman
受讓人：谷歌公司
美國專利：9,741,339
授予日期：2017 年 8 月 22 日
提交時間：2013 年 6 月 28 日

抽象的

用於確定特定術語發音的方法、系統和裝置，包括編碼在計算機存儲介質上的計算機程序。該方法、系統和設備包括獲得對應於特定術語的語音的音頻樣本和獲得該特定術語的候選發音的動作。進一步的動作包括為特定術語的每個候選發音和與特定術語對應的語音的音頻樣本生成反映候選發音和音頻樣本之間的相似度水平的分數，其中特定術語的所述分數是通過使用包含該術語的音素的最少單個分數獲得。額外的動作包括聚合每個候選發音的分數並基於候選發音的聚合分數將特定術語的一個或多個候選發音添加到發音詞典中。