Anfänge der Sprachsuche bei Google
Veröffentlicht: 2018-07-26
Das erste Mal, dass ich mich an die Sprachsuche von Google erinnere
Ich erinnere mich, dass ich 2007 zu einer Konferenz in New York City ging. Ich hatte ein Taxi von der Penn Station zu meinem Hotel genommen, und die Vorderseite des Hotels war voller SEOs, die ankamen, um an der Konferenz teilzunehmen. Ich traf Loren Baker (den Besitzer des Search Engine Journal), mit dem ich früher zusammengearbeitet habe, und er telefonierte mit etwas namens Goog 411, einem automatisierten Telefonverzeichnis, das Google drei Jahre lang betreiben wollte. Ich hatte zu diesem Zeitpunkt keine Ahnung, wie oft ich mein Telefon verwenden würde, um Informationen über Unternehmen zu finden, oder dass die Sprachsuche so beliebt werden würde wie heute bei Telefonen und Geräten zur Lautsprechersuche.
Ein diese Woche erteiltes Google-Patent bezieht sich auf die Sprachsuche nach Brancheneinträgen und bezieht sich auf ein "automatisiertes 411-Auskunftssystem", das mit einer Person auf eine Weise interagieren könnte, die "nachahmt, wie eine menschliche Telefonistin mit einem Anrufer interagiert".
Google telefoniert jetzt selbstständig
Das Patent erinnerte mich an das Duplex-System, das Anfang dieses Jahres auf der Google I/O-Konferenz demonstriert wurde. Während diese Demo Anrufe zeigte, die im Namen einer Person von Google Assistant getätigt werden konnten. Dieses Patent spricht von Anrufen, die Sie an ein automatisiertes System richten könnten, das antworten und Ihnen Informationen geben könnte. Das Patent sagt uns, dass es Folgendes beinhaltet:
Ein herkömmliches automatisiertes System enthält eine Spracherkennungsmaschine, die die Spracheingabe des Anrufers erkennt. Das automatisierte System umfasst eine Suchmaschine, die eine Datenbank nach der Telefonnummer des vom Anrufer angeforderten spezifischen Unternehmens durchsucht. Wenn die Spracherkennungsmaschine die Spracheingabe des Anrufers nicht erkennen kann, kann die Erkennungsmaschine den Anrufer auffordern, die Eingabe zu wiederholen, dem Anrufer eindeutige Fragen stellen oder den Anruf an einen menschlichen Operator weiterleiten.
Wie funktioniert eine Sprachsuche, wenn jemand beispielsweise über eine Sprachabfrage nach Unternehmen sucht? Das Patent enthält einige Details, die uns über die Interaktionen informieren, die wir möglicherweise mit einem Computersystem haben, das unsere Anfragen entgegennimmt und nach Informationen sucht, die an uns zurückgesendet werden.
Einer der ersten Schritte besteht darin, neben Standortinformationen und möglicherweise einer Kennung eines bestimmten Unternehmens nach „Informationen zur Art des Unternehmens oder der Kategorie“ zu fragen. Diese Anfrage kann mit einer Suchmaschine beantwortet werden, die eine Datenbank durchsucht, um Informationen (zB Telefonnummer) über ein bestimmtes Geschäft zu finden.
Informationen zum Geschäftstyp können durch Benutzereingaben bereitgestellt werden, bei denen es sich um Informationen handeln kann, die von Benutzern in früheren Anrufen oder Online-Suchaktivitäten von Benutzern bereitgestellt wurden, wie beispielsweise Schlüsselwortsuchen und Click-Throughs. Das Patent weist auf dieses Beispiel hin:
…das System kann einen neuen Geschäftstyp festlegen, wenn mehrere Benutzer ein bestimmtes Schlüsselwort oder eine bestimmte Phrase eintippten und später auf bestimmte Unternehmen klicken, um anzuzeigen, dass die Benutzer die bestimmten Unternehmen mit dem Schlüsselwort oder der Phrase verknüpft haben.
Was wir in diesem Patent anscheinend nicht sehen, ist das, was Google von seinem Goog 411-Dienst gelernt hat, mit dem es früher sprachbasierte Suchen auf dem Telefon angeboten hat. Sie teilten uns im offiziellen Google-Blog mit, dass sie diesen Dienst in dem Beitrag „Auf Wiedersehen von einem alten Freund“: 1-800-GOOG-411 im Jahr 2010 beenden. Wie dieser Beitrag uns sagt:
GOOG-411 war der erste Spracherkennungsdienst von Google und hat dazu beigetragen, eine Grundlage für ehrgeizigere Dienste zu schaffen, die jetzt auf Smartphones verfügbar sind, wie zum Beispiel:
- Sprachsuche – Durchsuchen Sie Google, indem Sie sprechen, anstatt zu tippen.
- Spracheingabe – Füllen Sie ein beliebiges Textfeld auf Android aus, indem Sie sprechen, anstatt zu tippen.
- Sprachaktionen – Steuern Sie Ihr Android-Telefon mit Sprachbefehlen. Sie können beispielsweise jedes Unternehmen schnell und einfach anrufen, indem Sie einfach seinen Namen sagen.
Dieses erst kürzlich erteilte Patent für die Sprachsuche eines automatisierten Verzeichnisses scheint nichts so Neues zu beschreiben. Wenn man über Goog 411 liest, scheint es, dass es Anrufern kostenlos Informationen über Unternehmen zur Verfügung gestellt hat, damit Google Sprachdaten sammeln kann. Wie Marissa Mayer in einem Interview mit Infoworld sagte:
Unsere Spracherkennungsexperten sagen: Wenn wir ein wirklich robustes Sprachmodell bauen wollen, brauchen wir viele Phoneme, also eine Silbe, die von einer bestimmten Stimme mit einer bestimmten Intonation gesprochen wird. Wir brauchen also viele Leute, die reden und Dinge sagen, damit wir letztendlich davon trainieren können. … Bei 1-800-GOOG-411 geht es also darum: Eine Reihe verschiedener Sprachproben zu erhalten, damit wir beim Anrufen oder beim Versuch, die Stimme aus dem Video zu bekommen, dies mit hoher Genauigkeit tun können.
Dieses Patent wirkt wie etwas, das man anmelden könnte, um so etwas wie Goog 411 auf den Markt zu bringen, weshalb der Anmeldetag des Patents im Jahr 2016 überraschend war. Das Patent ist bei:
Suche nach geschäftlichen oder persönlichen Einträgen
Erfinder: Brian Strope, William J. Byrne und Francoise Beaufays
Rechtsnachfolger: GOOGLE LLC
US-Patent: 10.026.402
Bewilligt: 17. Juli 2018
Gespeichert: 3. Oktober 2016
Abstrakt
Ein Verfahren zum Durchsuchen eines Geschäftseintrags mit Sprachbefehlen umfasst das Empfangen einer von einem Benutzer gesprochenen Anfrage über das Internet von einem Benutzerterminal, die eine Sprachäußerung umfasst, die eine Warenkategorie darstellt, eine Sprachäußerung, die einen Warenartikel darstellt, und a Sprachäußerung, die einen geografischen Standort darstellt. Das Verfahren umfasst das Erkennen des geografischen Ortes mit einer Spracherkennungsmaschine basierend auf der Sprachäußerung, die den geografischen Ort repräsentiert, Erkennen der Warenkategorie mit der Spracherkennungsmaschine basierend auf der Sprachäußerung, die die Warenkategorie repräsentiert, Erkennen des Warenartikels mit einer Sprache Erkennungsmaschine basierend auf der Sprachäußerung, die den Warenartikel darstellt, Durchsuchen eines Geschäftsverzeichnisses nach Unternehmen innerhalb oder in der Nähe des erkannten geografischen Standorts, um Unternehmen als Reaktion auf die vom Benutzer gesprochene Anfrage auszuwählen, und Senden von Informationen in Bezug auf zumindest einige von die reaktionsschnellen Geschäfte.
Sprachsuche zum Mitnehmen
Ich habe mir dieses Patent in der PAIR-Datenbank (Patent Application Information Retrieval) auf der USPTO-Website angesehen, um mehr darüber zu erfahren. Die PAIR-Datenbank enthält Akten von Klagen bei der Durchsetzung von Patenten, einschließlich Dinge wie Ablehnungen. Dieses Patent wurde abgelehnt und die Ansprüche vor der Erteilung geändert. Es gab eine frühere Version dieses Patents, die 2015 unter dem Namen Business Listing Search eingereicht und erteilt wurde. Google zog diese Version dieses Patents zurück, damit diese Version stattdessen erteilt werden konnte. Es schien nicht viele Unterschiede zwischen den beiden zu geben. Ich hatte einige Erwartungen, dass Google die Sprachdaten verwenden könnte, die sie beim Ausführen von Goog 411 gesammelt hatten (und dies möglicherweise auch getan haben), und war überrascht, nichts davon in diesem Patent erwähnt zu sehen.
Es gibt andere Patente, die die Sprachsuche beinhalten, und diese sind vielleicht einen Blick wert, aber dieses Patent über einen automatisierten Geschäftseintragungsansatz scheint etwas zu sein, das jemand einreichen würde, um zu versuchen, andere daran zu hindern, einen Goog 411-Dienst zu betreiben. Wenn der Goog 411-Dienst eine so großartige Möglichkeit zum Sammeln sprachbasierter Daten wäre, als andere davon abzuhalten, solche Daten zu sammeln, ist es vielleicht keine schlechte Idee.
Ein von Google veröffentlichtes Papier, das einige Autoren mit diesem Patent teilt, erzählt uns über die Rolle von Goog 411 bei der Führung der Sprachsuche bei Google und ist einen Blick wert. es ist unter: Google Search by Voice: Eine Fallstudie. Es gibt mehr von Google über die Sprachsuche, und ich habe einige weitere Patente aufgespürt, die uns mehr darüber erzählen, was sie sich angesehen und an denen sie gearbeitet haben.
Andere Patente für die Sprachsuche
Anstatt zu tief in diese anderen Patente einzudringen, werde ich hier nur einige davon auflisten, damit jeder, der sich weiter mit der Sprachsuche befasst, dies tun kann. Weitere Patente konzentrieren sich auf die Sprachsuche, aber ich habe keine Besonderheiten bei der Suche nach Unternehmen festgestellt.
Automatische Aktualisierung des Sprachmodells
Erfinder: Michael H. Cohen, Shumeet Baluja, Pedro J. Moreno Mengibar
Rechtsnachfolger: Google LLC (nicht zutreffend)
US-Patent: 9,953,636
Bewilligt: 24. April 2018
Gespeichert: 9. Oktober 2015
Abstrakt
Ein Verfahren zum Generieren eines Spracherkennungsmodells umfasst das Zugreifen auf ein Basis-Spracherkennungsmodell, das Erhalten von Informationen bezüglich der jüngsten Sprachverwendung aus Suchanfragen und das Modifizieren des Spracherkennungsmodells, um die Wahrscheinlichkeiten eines Teils eines Schallauftritts basierend auf den Informationen zu revidieren. Der Teil eines Tons kann ein Wort enthalten. Außerdem umfasst ein Verfahren zum Generieren eines Spracherkennungsmodells das Empfangen einer Audioaufzeichnung und eines Transkripts, das im Wesentlichen zumindest einen Teil der Audioaufzeichnung darstellt, bei einer Suchmaschine von einem entfernten Gerät, das Synchronisieren des Transkripts mit der Audioaufzeichnung, das Extrahieren eines oder mehrerer Buchstaben aus dem Transkript und Extrahieren der zugehörigen Aussprache des einen oder der mehreren Buchstaben aus der Audioaufzeichnung und Erzeugen eines Wörterbucheintrags in einem Aussprachewörterbuch.
Spracherkennung mit aufmerksamkeitsbasierten rekurrenten neuronalen Netzen
Erfinder: William Chan, Navdeep Jaitly, Quoc V. Le, Oriol Vinyals und Noam M. Shazeer
Rechtsnachfolger: Google Inc.
US-Patent:
Bewilligt: 24. Oktober 2017
Gespeichert: 26. Februar 2016
Abstrakt
Verfahren, Systeme und Geräte, einschließlich auf Computerspeichermedien codierter Computerprogramme zur Spracherkennung. Ein Verfahren umfasst das Erhalten einer akustischen Eingabesequenz, wobei die akustische Eingabesequenz eine Äußerung darstellt und die akustische Eingabesequenz eine jeweilige akustische Merkmalsdarstellung bei jedem der ersten Anzahl von Zeitschritten umfasst; Verarbeiten der akustischen Eingabesequenz unter Verwendung eines ersten neuronalen Netzes, um die akustische Eingabesequenz in eine alternative Darstellung für die akustische Eingabesequenz umzuwandeln; Verarbeiten der alternativen Darstellung für die akustische Eingabesequenz unter Verwendung eines aufmerksamkeitsbasierten rekurrenten neuronalen Netzes (RNN), um für jede Position in einer Ausgabesequenzreihenfolge einen Satz von Teilstringbewertungen zu erzeugen, der einen entsprechenden Teilstringbewertung für jede Teilkette in einem Satz von . enthält Teilzeichenfolgen; und Erzeugen einer Sequenz von Teilstrings, die eine Transkription der Äußerung darstellen.
Datengesteuertes Lernen und Bewerten der Wortaussprache mit Crowdsourcing basierend auf den Ausspracheergebnissen der Phoneme des Wortes
Erfinder: Fuchun Peng, Francoise Beaufays, Brian Strope, Xin Lei, Pedro J. Moreno Mengibar und Trevor D. Strohman
Rechtsnachfolger: Google Inc.
US-Patent: 9,741,339
Bewilligt: 22. August 2017
Gespeichert: 28. Juni 2013
Abstrakt
Verfahren, Systeme und Vorrichtungen, einschließlich Computerprogrammen, die auf einem Computerspeichermedium codiert sind, zum Bestimmen der Aussprache bestimmter Begriffe. Die Verfahren, Systeme und Vorrichtungen umfassen Aktionen zum Erhalten von Audiosamples von Sprache, die einem bestimmten Begriff entsprechen, und zum Erhalten von Kandidatenaussprachen für den bestimmten Begriff. Weitere Aktionen umfassen das Erzeugen einer Punktzahl, die einen Ähnlichkeitsgrad zwischen der Kandidatenaussprache und der Audioprobe widerspiegelt, für jeden Aussprachekandidaten für den bestimmten Begriff und das dem bestimmten Begriff entsprechende Audiobeispiel von Sprache, wobei der Punktwert für den bestimmten Begriff . ist erhalten durch Verwendung eines Minimums einzelner Bewertungen von Phonemen, die den Begriff umfassen. Zusätzliche Aktionen umfassen das Aggregieren der Punktzahlen für jede Kandidatenaussprache und das Hinzufügen einer oder mehrerer Kandidatenaussprachen für den bestimmten Begriff zu einem Aussprachelexikon basierend auf den aggregierten Punktzahlen für die Kandidatenaussprachen.

