Google'da Sesli Aramanın İlk Günleri
Yayınlanan: 2018-07-26
Google'dan Sesli Aramayı İlk Hatırladığım Anda
2007'de New York'ta bir konferansa gittiğimi hatırlıyorum. Penn Station'dan otelime bir taksiye binmiştim ve otelin önü Konferansa katılmak için gelen SEO'larla doluydu. Eskiden birlikte çalıştığım Loren Baker'a (Arama Motoru Dergisi'nin sahibi) rastladım ve Google'ın üç yıl boyunca çalıştırmaya karar verdiği otomatik bir telefon rehberi olan Goog 411 adlı bir şeye telefon ediyordu. O zamanlar, işletmeler hakkında bilgi bulmak için telefonumu ne sıklıkla kullanacağımı ya da sesli aramanın şu anda telefonlarda ve hoparlör arama cihazlarında olduğu kadar popüler hale geleceğini bilmiyordum.
Bu hafta verilen bir Google patenti, işletme listeleri için sesli aramalarla ilgilidir ve bir kişiyle "bir insan operatörün bir arayanla nasıl etkileşim kuracağını taklit edecek" şekilde etkileşime girebilecek "otomatik bir 411 rehber yardım sistemine" atıfta bulunur.
Google Artık Kendi Kendine Otomatik Telefon Görüşmeleri Yapıyor
Patent bana bu yılın başlarında Google I/O konferansında gösterilen Duplex sistemini hatırlattı. Bu demo, Google Asistan tarafından bir kişi adına yapılabilecek aramaları gösterdi. Bu patent, size cevap verebilecek ve size bilgi verebilecek otomatik bir sisteme yapabileceğiniz aramalardan bahsediyor. Patent bize şunları içerdiğini söylüyor:
Geleneksel bir otomatik sistem, arayanın konuşma girişini tanıyan bir konuşma tanıma motoru içerir. Otomatik sistem, arayan tarafından istenen belirli bir işletmenin telefon numarası için bir veritabanı arayan bir arama motoru içerir. Konuşma tanıma motoru arayanın konuşma girişini tanıyamazsa, tanıma motoru arayandan girişi tekrarlamasını, arayana belirsizliği gideren sorular sormasını veya aramayı bir insan operatöre aktarmasını isteyebilir.
Peki, birisi sesli sorgu gibi bir şeyle işletme aradığında sesli arama nasıl çalışır? Patent, sorgularımızı alan ve bize geri dönmek için bilgi arayan bir bilgisayar sistemiyle sahip olabileceğimiz etkileşimler hakkında bize bilgi veren bazı ayrıntılar sağlar.
İlk adımlardan biri, konum bilgisine ve muhtemelen belirli bir işletmenin tanımlayıcısına ek olarak “işletme türü veya kategori bilgisi” istemektir. Bu sorguya, belirli bir işletme hakkında bilgi (örneğin, telefon numarası) bulmak için bir veritabanını arayan bir arama motoruyla yanıt verilebilir.
İş türü bilgisi, anahtar kelime aramaları ve tıklamalar gibi kullanıcıların geçmiş aramalarında veya çevrimiçi arama etkinliklerinde kullanıcılar tarafından sağlanan bilgiler olabilecek kullanıcı girişi ile sağlanabilir. Patent bu örneğe işaret ediyor:
…sistem, birkaç kullanıcı belirli bir anahtar kelimeyi veya kelime öbeğini yazıp daha sonra belirli işletmeleri tıkladığında, kullanıcıların belirli işletmeleri anahtar kelime veya kelime öbeği ile ilişkilendirdiğini belirterek yeni bir işletme türü oluşturabilir.
Bu patentten görmediğimiz şey, Google'ın telefonda ses tabanlı aramalar sunmak için kullandıkları Goog 411 Hizmetinden öğrendikleridir. Resmi Google Blogunda bize, 2010'da eski bir arkadaşa hoşçakalın: 1-800-GOOG-411 adlı gönderide bu hizmeti sonlandırdıklarını söylediler. Bu gönderi bize şunları söylüyor:
GOOG-411, Google'ın sunduğu ilk konuşma tanıma hizmetiydi ve şu anda akıllı telefonlarda kullanılabilen daha iddialı hizmetler için bir temel oluşturmaya yardımcı oldu, örneğin:
- Sesli Arama – Google'da yazmak yerine konuşarak arama yapın.
- Ses Girişi – Android'de herhangi bir metin alanını yazmak yerine konuşarak doldurun.
- Sesli İşlemler – Android telefonunuzu sesli komutlarla kontrol edin. Örneğin herhangi bir işletmeyi sadece adını söyleyerek hızlı ve kolay bir şekilde arayabilirsiniz.
Otomatik bir dizinde Sesli arama konusunda çok yakın zamanda verilen bu patent, o kadar da yeni olan bir şeyi tanımlamıyor gibi görünüyor. Goog 411 hakkında okuma, Google'ın ses verilerini toplamasını sağlamak için arayanlara ücretsiz olarak işletmeler hakkında bilgi sağladığı anlaşılıyor. Marissa Mayer'in Infoworld ile yaptığı bir röportajda belirttiği gibi:
Konuşma tanıma uzmanları bize şunu söylüyor: Gerçekten sağlam bir konuşma modeli oluşturmamızı istiyorsanız, belirli bir tonlama ile belirli bir ses tarafından söylendiği gibi bir hece olan çok sayıda foneme ihtiyacımız var. Bu yüzden, nihayetinde bundan eğitim alabilmemiz için birçok insanın konuşmasına, bir şeyler söylemesine ihtiyacımız var. … Yani 1-800-GOOG-411 bununla ilgili: Bir sürü farklı konuşma örneği almak, böylece aradığınızda veya sesi videodan çıkarmaya çalıştığımızda, bunu yüksek doğrulukla yapabiliriz.
Bu patent, Goog 411 gibi bir şeyin piyasaya sürülebilmesi için dosyalanabilecek bir şey olarak karşımıza çıkıyor, bu yüzden 2016'da patent başvurusu tarihi şaşırtıcıydı. Patent şurada:
İşletme veya kişisel liste araması
Mucitler: Brian Strope, William J. Byrne ve Francoise Beaufays
Atanan: GOOGLE LLC
ABD Patenti: 10.026.402
Verildi: 17 Temmuz 2018
Dosya: 3 Ekim 2016
Soyut
Bir işletme listesini sesli komutlarla aramanın bir yöntemi, İnternet üzerinden bir kullanıcı terminalinden almayı, bir ürün kategorisini temsil eden bir konuşma ifadesini, bir ticari ürünü temsil eden bir konuşma ifadesini ve bir kullanıcı tarafından konuşulan bir sorguyu içerir. bir coğrafi konumu temsil eden konuşma ifadesi. Yöntem, coğrafi konumu temsil eden konuşma ifadesine dayalı bir konuşma tanıma motoruyla coğrafi konumun tanınmasını, ticari mal kategorisini temsil eden konuşma ifadesine dayalı konuşma tanıma motoruyla ticari mal kategorisinin tanınmasını, ticari mal öğesinin bir konuşma ile tanınmasını içerir. mal öğesini temsil eden konuşma ifadesine dayalı tanıma motoru, kullanıcı tarafından konuşulan sorguya yanıt veren işletmeleri seçmek için tanınan coğrafi konum içindeki veya yakınındaki işletmeler için bir işletme listesi araması ve en azından bazılarıyla ilgili kullanıcı terminali bilgilerinin gönderilmesi. duyarlı işletmeler.
Sesli Arama Take Away
Hakkında daha fazla bilgi edinmek için USPTO web sitesindeki PAIR (Patent Başvuru Bilgi Alma) Veritabanında bu patente baktım. PAIR veritabanı, ret gibi şeyler de dahil olmak üzere, patentlerin kovuşturulmasıyla ilgili bir dizi eylem içerir. Bu patent reddedildi ve verilmeden önce taleplerde bir değişiklik yapıldı. Bu patentin 2015 yılında İş İlanı Arama adı altında verilmiş olan daha eski bir versiyonu vardı. Google, bunun yerine bu sürümün verilebilmesi için o patentin bu sürümünü geri çekti. İkisi arasında pek bir fark yok gibiydi. Google'ın Goog 411'i çalıştırırken topladıkları ses verilerini kullanıyor olabileceğine (ve sahip olabileceğine) dair bazı beklentilerim vardı ve bu patentte bununla ilgili hiçbir şey görmemek beni şaşırttı.
Sesli aramayı içeren başka patentler de var ve bunlar göz atmaya değer olabilir, ancak otomatik işletme listeleme yaklaşımıyla ilgili bu patent, birinin başkalarının Goog 411 hizmetini çalıştırmasını engellemek için başvuracağı türden bir şeye benziyor. Goog 411 hizmeti, başkalarının bu tür verileri toplamasını engellemektense ses tabanlı verileri toplamanın harika bir yoluysa, kötü bir fikir olmayabilir.
Google tarafından yayınlanan ve bu patentle bazı yazarları paylaşan bir makale, bize Goog 411'in Google'da sesli aramaya öncülük etmedeki rolünü anlatıyor ve bir göz atmaya değer. şu adreste: Google Sesle Arama: Bir örnek olay. Google'da Sesli aramayla ilgili daha çok şey var ve baktıklarını ve üzerinde çalıştıkları şeyler hakkında bize daha fazla bilgi veren birkaç patent daha buldum.
Diğer Sesli Arama Patentleri
Bu diğer patentleri çok derinlemesine araştırmak yerine, burada sadece birkaçını listeleyeceğim, böylece sesli aramayı daha fazla araştırmak isteyen herkes bunu yapabilir. Daha fazla patent sesli aramaya odaklanır, ancak işletme aramayla ilgili herhangi bir ayrıntı görmedim.
Otomatik dil modeli güncellemesi
Mucitler: Michael H. Cohen, Shumeet Baluja, Pedro J. Moreno Mengibar
Atanan: Google LLC (N/A)
ABD Patenti: 9,953,636
Verildi: 24 Nisan 2018
Dosya: 9 Ekim 2015
Soyut
Bir konuşma tanıma modeli oluşturmaya yönelik bir yöntem, bir temel konuşma tanıma modeline erişmeyi, arama sorgularından son dil kullanımı ile ilgili bilgileri elde etmeyi ve bilgiye dayalı olarak bir ses oluşumunun bir bölümünün olasılıklarını revize etmek için konuşma tanıma modelini değiştirmeyi içerir. Bir sesin parçası bir kelime içerebilir. Ayrıca, bir konuşma tanıma modeli oluşturmak için bir yöntem, uzak bir cihazdan bir arama motorundan bir ses kaydının ve esas olarak ses kaydının en azından bir bölümünü temsil eden bir yazının alınmasını, yazının ses kaydıyla senkronize edilmesini, bir veya daha fazlasının çıkarılmasını içerir. transkriptten harfler ve ses kaydından bir veya daha fazla harfin ilişkili telaffuzunu çıkarmak ve bir telaffuz sözlüğünde bir sözlük girişi oluşturmak.
Dikkate dayalı tekrarlayan sinir ağları ile konuşma tanıma
Mucitler: William Chan, Navdeep Jaitly, Quoc V. Le, Oriol Vinyals ve Noam M. Shazeer
Devir: Google Inc.
ABD Patenti:
Verildi: 24 Ekim 2017
Dosya: 26 Şubat 2016
Soyut
Konuşma tanıma için bilgisayar depolama ortamına kodlanmış bilgisayar programları dahil yöntemler, sistemler ve aygıtlar. Bir yöntem, bir girdi akustik dizisinin elde edilmesini, bir sözü temsil eden girdi akustik dizisinin ve ilk zaman adımlarının her birinde ilgili bir akustik özellik temsilini içeren girdi akustik dizisinin elde edilmesini içerir; girdi akustik dizisini girdi akustik dizisi için alternatif bir temsile dönüştürmek için bir birinci sinir ağı kullanılarak girdi akustik dizisinin işlenmesi; bir çıktı dizisi sırasındaki her bir konum için, bir dizi içindeki her bir alt dizi için ilgili bir alt dizi puanını içeren bir dizi alt dizi puanları oluşturmak üzere dikkat temelli bir Tekrarlayan Sinir Ağı (RNN) kullanılarak girdi akustik dizisi için alternatif temsilin işlenmesi. alt diziler; ve ifadenin bir transkripsiyonunu temsil eden bir alt dizi dizisinin üretilmesi.
Kelimenin fonem telaffuz puanlarına dayalı kitle kaynak kullanımı ile veriye dayalı kelime telaffuzu öğrenme ve puanlama
Mucitler: Fuchun Peng, Francoise Beaufays, Brian Strope, Xin Lei, Pedro J. Moreno Mengibar ve Trevor D. Strohman
Devir: Google Inc.
ABD Patenti: 9.741.339
Verildi: 22 Ağustos 2017
Dosyalanma: 28 Haziran 2013
Soyut
Belirli terimlerin telaffuzlarını belirlemek için bir bilgisayar depolama ortamında kodlanmış bilgisayar programları da dahil olmak üzere yöntemler, sistemler ve aygıtlar. Yöntemler, sistemler ve aparatlar, belirli bir terime karşılık gelen sesli konuşma örneklerinin elde edilmesi ve belirli bir terim için aday telaffuzların elde edilmesi eylemlerini içerir. Diğer eylemler, belirli terim için her aday telaffuzu ve belirli terime karşılık gelen sesli konuşma örneği için, aday telaffuzu ile ses örneği arasındaki benzerlik seviyesini yansıtan bir puan oluşturmayı içerir, burada belirli terim için bahsedilen puan terimi içeren minimum bireysel fonem puanları kullanılarak elde edilir. Ek eylemler, her aday telaffuzu için puanların birleştirilmesini ve aday telaffuzları için toplanan puanlara dayalı olarak belirli bir terim için bir veya daha fazla aday telaffuzunun bir telaffuz sözlüğüne eklenmesini içerir.

