Was sind gute Antworten auf Fragen, die Fragen stellen?

Veröffentlicht: 2020-03-24

Elemente von antwortsuchenden Abfragen und Elemente von Antworten

Google wurde kürzlich ein Patent erteilt, das sich auf antwortsuchende Anfragen konzentriert und gute Antworten auf solche Anfragen bietet.

Eine Vorstellung davon, was die Elemente von antwortsuchenden Abfragen sind, kann den Benutzern helfen zu verstehen, was sie möglicherweise veröffentlichen müssen, um Antworten auf diese Fragen zu geben.

Es kann also interessant sein, zu sehen, was dieses Patent darüber aussagt, wonach Google in Bezug auf gute Antworten auf Anfragen sucht.

Dieses Patent konzentriert sich auf:

Wie ein Suchsystem die charakteristischen Elemente von antwortsuchenden Anfragen und Antworten auf antwortsuchende Anfragen lernen kann.

Die Beschreibung des Patents beginnt damit, uns mehr über gute Antworten auf Fragen zu erzählen:

Im Allgemeinen empfängt ein Suchsystem eine Suchanfrage und erhält Suchergebnisse, die die Suchanfrage erfüllen. Die Suchergebnisse identifizieren Ressourcen, die relevant sind oder auf die Suchanfrage reagieren, z. B. über das Internet zugängliche Ressourcen. Ein Suchsystem kann viele verschiedene Arten von Suchergebnissen als Reaktion auf eine empfangene Suchanfrage identifizieren, z. B. Suchergebnisse, die Webseiten, Bilder, Videos, Bücher oder Nachrichtenartikel identifizieren, Suchergebnisse, die neben vielen anderen Wegbeschreibungen darstellen Arten von Suchergebnissen.

Dies kann beinhalten, dass Google Informationen über Entitäten in diesen Abfragen erhält und diese Informationen in einer Antwort verwendet:

Suchsysteme können verschiedene Subsysteme verwenden, um Ressourcen zu erhalten, die für eine Abfrage relevant sind. Beispielsweise kann ein Suchsystem eine Wissensdatenbank unterhalten, die Informationen über verschiedene Entitäten speichert und Informationen über die Entitäten bereitstellt, wenn eine Suchanfrage auf den Alias ​​einer Entität verweist. Das System kann jeder Entität einen oder mehrere Textstring-Aliasnamen zuweisen. Die Freiheitsstatue kann beispielsweise mit den Aliasen „die Freiheitsstatue“ und „Lady Liberty“ verknüpft werden. Aliase müssen zwischen Entitäten nicht eindeutig sein. „Jaguar“ kann beispielsweise ein Alias ​​sowohl für ein Tier als auch für einen Autohersteller sein.

Es kann auch bedeuten, dass Google verschiedene Wortarten in den Abfragen versteht und diese Informationen auch in Antworten verwendet:

Ein weiteres beispielhaftes Such-Subsystem ist ein Wortteil-Tagger. Der Wortart-Tagger analysiert Begriffe in einer Abfrage und klassifiziert jeden Begriff als eine bestimmte Wortart, zB als Nomen, Verb oder direktes Objekt. Ein weiteres beispielhaftes Such-Subsystem ist eine Wurzelwortkennung. Bei einer bestimmten Abfrage kann die Wurzelholzkennung einen Begriff in der Abfrage als Wurzelwort klassifizieren, das ist ein Wort, das von keinem anderen Wort in der Abfrage abhängt. Beispielsweise kann in der Abfrage „wie man Lasagne kocht“ eine Wurzelwortkennung bestimmen, dass „kochen“ das Wurzelwort der Abfrage ist.

Bei diesem Patent geht es vor allem darum, prägnante Antworten auf Fragen zu finden, die sich darauf konzentrieren, Antworten auf die Fragen des Suchenden zu zeigen:

Diese Spezifikation beschreibt Technologien, die sich auf das Klassifizieren von Abfragen als antwortsuchend und das Erzeugen von Antworten auf antwortsuchende Abfragen beziehen. Eine antwortsuchende Abfrage ist eine Abfrage, die von einem Benutzer ausgegeben wird, der eine prägnante Antwort sucht. Zum Beispiel würde „wann wurde George Washington geboren“ von einem System als antwortsuchende Abfrage klassifiziert, weil das System feststellen kann, dass es wahrscheinlich ist, dass ein Benutzer, der es ausgibt, eine prägnante Antwort sucht, z. B. „Feb. 22, 1732.“

Ein Beispiel für eine Antwortanfrage aus den Zeichnungen des Patents:

Schritte zum Kochen von Kartoffeln

Klassifizieren von Anfragen als antwortsuchend und Generieren von Antworten auf antwortsuchende Anfragen

Eine antwortsuchende Abfrage wird von einem Suchenden gesucht, der nach einer prägnanten Antwort sucht.

Ein Beispiel ist: „Wann wurde George Washington geboren?“ Dies könnte als antwortsuchende Anfrage klassifiziert werden, da festgestellt werden kann, dass ein Suchender wahrscheinlich eine Antwort wie: „Feb. 22, 1732.“

Das Patent sagt uns, dass nicht alle Anfragen antwortsuchend sind und dass diese möglicherweise nur Suchergebnisse und keine Antwortboxen mit Antworten zurückgeben.

Bei einigen Abfragen scheint es die beste Antwort zu sein, einem Suchenden eine sortierte Liste mehrerer Dokumente bereitzustellen, die für die Abfrage relevant sind. Jemand sucht nach „Restaurants in New York“ und möchte wahrscheinlich eine Liste mit Dokumenten über verschiedene Restaurants in NYC.

Wir werden auf den Zweck dieses Patents hingewiesen und erfahren, warum es existiert:

Die unten beschriebenen Techniken beziehen sich sowohl darauf, wie ein System eine Abfrage als eine antwortsuchende Abfrage klassifizieren kann, als auch wie ein System Teile von antwortenden Dokumenten identifizieren kann, die wahrscheinlich gute Antworten auf eine antwortsuchende Abfrage sind.

Dies ist das erste Mal, dass ich etwas von Google gesehen habe, das uns sagt, was eine "gute Antwort" auf eine Frage in einem Antwortfeld sein könnte.

Identifizieren von antwortsuchenden Anfragen

Die Patentbeschreibung sagt uns, wie der Prozess hinter dem Erkennen von antwortsuchenden Anfragen aussehen könnte.

Es beginnt mit einer Zusammenfassung von Aspekten des Patents und legt Aspekte seiner Funktionsweise dar, auf die ich in diesem Beitrag näher eingehen werde.

Der Prozess zur Identifizierung von antwortsuchenden Anfragen umfasst:

  • Empfangen einer Abfrage mit mehreren Begriffen
  • Klassifizieren einer Abfrage als antwortsuchende Abfrage eines bestimmten Fragetyps
  • Abrufen eines oder mehrerer Antworttypen, die mit dem bestimmten Fragetyp verknüpft sind
  • Wobei jeder Antworttyp ein oder mehrere jeweilige Antwortelemente angibt, die Merkmale einer richtigen Antwort auf die antwortsuchende Frage darstellen
  • Erhalten von Suchergebnissen, die die Abfrage erfüllen, wobei jedes ein Dokument identifiziert
  • Berechnen einer jeweiligen Punktzahl für jede von einer oder mehreren Textpassagen in jedem durch die Suchergebnisse identifizierten Dokument
  • Wobei die Punktzahl für jede Textpassage darauf basiert, wie viele der einen oder mehreren Antworttypen mit der Textpassage übereinstimmen
  • Bereitstellen, als Antwort auf die Anfrage, einer Präsentation, die Informationen aus einer oder mehreren der Textpassagen enthält, die basierend auf der jeweiligen Punktzahl ausgewählt wurden

Antwort-Scoring-Engine

Einige andere optionale Funktionen, die an diesem Prozess beteiligt sind:

  • Bereitstellung einer ersten Textpassage und eines oder mehrerer Suchergebnisse, die die Suchanfrage erfüllen
  • Feststellen, dass die Textpassagen eine Punktzahl aufweisen, die einen Schwellenwert erfüllen
  • Auswahl der Textpassagen mit Punktzahlen, die die Schwelle für die Aufnahme in die Präsentation erfüllen

Was sind antwortsuchende Abfragen?

Anfragen als „Antwort-Suchanfragen“ bestimmter Typen zu klassifizieren, kann bedeuten:

  • Abgleich von Abfragebegriffen mit einer Reihe von Fragetypen
  • Wobei jeder Fragetyp eine Reihe von Frageelementen angibt, die zusammen die Merkmale eines entsprechenden Abfragetyps darstellen
  • Bestimmen, dass die Begriffe von Abfragen einem ersten Fragetyp der Anzahl von Fragetypen entsprechen

Wie stimmen Abfragebedingungen mit Fragetypen überein?

Ein „n-Gramm“ bedeutet eine Folge von Wörtern der Länge „n“, also wäre ein 2-Gramm zwei Wörter lang und ein 3-Gramm wäre 3 Wörter lang. Durch die Formulierung als „n-Gramm“ bietet der Prozess im Patent die Flexibilität, verschiedene Längen zu erkunden.

Die Feststellung, dass die Begriffe von Abfragen bestimmten Fragetypen entsprechen, bedeutet:

  • Bestimmen, dass das erste N-Gramm in der Abfrage eine Entitätsinstanz darstellt
  • Feststellen, dass die ersten Fragetypen Frageelemente enthalten, die Entitätsinstanzen darstellen

Die Feststellung, dass die Begriffe von Abfragen bestimmten Fragetypen entsprechen, bedeutet:

  • Entscheiden, dass das erste N-Gramm in einer Abfrage eine Instanz einer Klasse darstellt
  • Feststellen, dass der Fragetyp ein Frageelement enthält, das die Klasse repräsentiert

Feststellen, dass die erste Textpassage mit einem ersten Antworttyp des einen oder der mehreren Antworttypen übereinstimmt

  • Entscheiden, dass die erste Textpassage N-Gramme enthält, die einem oder mehreren Antwortelementen des ersten Antworttyps entsprechen
  • Ein erstes Antwortelement des einen oder der mehreren Antwortelemente kann ein numerisches Maß darstellen

Wobei das Bestimmen, dass die erste Textpassage mit dem ersten Antworttyp übereinstimmt, das Bestimmen umfasst, dass die erste Textpassage ein N-Gramm hat, das eine numerische Messung darstellt.

  • Das erste Antwortelement des einen oder der mehreren Antwortelemente repräsentiert eine Verbklasse
  • Das Bestimmen, dass die erste Textpassage dem ersten Antworttyp entspricht, umfasst das Bestimmen, dass die erste Textpassage ein N-Gramm hat, das eine Instanz der Verbklasse darstellt

Trainingsdaten sammeln

Dieses Patent finden Sie unter:

Generieren von Elementen von antwortsuchenden Fragen und Elementen von Antworten
Erfinder: Yi Liu, Preyas Popat, Nitin Gupta und Afroz Mohiuddin
Rechtsnachfolger: Google LLC
US-Patent: 10.592.540
Bewilligt: ​​17. März 2020
Gespeichert: 28. Juni 2016

Abstrakt

Verfahren, Systeme und Apparate, einschließlich auf Computerspeichermedien kodierte Computerprogramme zum Generieren von Antworten auf antwortsuchende Anfragen.

Eines der Verfahren umfasst das Empfangen einer Abfrage mit mehreren Begriffen. Die Abfrage wird als eine antwortsuchende Abfrage eines bestimmten Fragetyps klassifiziert, und es werden ein oder mehrere Antworttypen erhalten, die dem bestimmten Fragetyp zugeordnet sind.

Suchergebnisse, die die Abfrage erfüllen, werden erhalten, und eine jeweilige Bewertung wird für jede von einer oder mehreren Textpassagen berechnet, die in jedem durch die Suchergebnisse identifizierten Dokument vorkommen, wobei die Bewertung für jede Textpassage darauf basiert, wie viele der einen oder mehr Antworttypen entsprechen der Textpassage.

Als Antwort auf die Abfrage wird eine Präsentation bereitgestellt, die Informationen aus einer oder mehreren der Textpassagen enthält, die basierend auf der jeweiligen Bewertung ausgewählt wurden.

Präsentation einer Antwort auf eine antwortsuchende Frage

Eine Suchergebnisseite kann Websuchergebnisse sowie ein Antwortfeld enthalten.

Mehr über Antwortboxen habe ich im Beitrag How Google May Trigger Answer Box Results for Queries geschrieben.

Websuchergebnisse können Links zu Dokumenten aus dem Webindex von Google enthalten.

Dies sind Ergebnisse, die als wahrscheinlich relevant für eine gestellte Abfrage angesehen werden und einen Titel, ein Snippet und einen Anzeigelink enthalten.

Diese können in den Suchergebnissen angezeigt werden, um einem Suchenden eine Vorstellung davon zu geben, wie relevant ein bestimmter Link für die von ihm durchgeführte Abfrage sein könnte. Und sie würden es einem Suchenden ermöglichen, die Seite zu besuchen, von der er stammt.

Eine Antwortbox kann direkt eine Antwort auf eine Anfrage enthalten. Diese Antwort ist wahrscheinlich aus dem Text eines Dokuments zu entnehmen, auf das in den Ergebnissen der Websuche verwiesen wird.

Über solche Antworten habe ich im Beitrag Featured Snippets – Natural Language Search Results for Intent Queries geschrieben. Diese stammen wahrscheinlich aus maßgeblichen Dokumenten, wahrscheinlich von der ersten Seite einer Reihe von Suchergebnissen.

Google hatte diese Antwortbox-Ergebnisse als Reaktion auf eine Abfrage über den organischen Ergebnissen angezeigt und diese Seite ein zweites Mal in den SERPs angezeigt, aber sie haben sich kürzlich entschieden, solche Antworten als einzelne Ergebnisse zu behandeln, wie in The Search Engine Journal in Google: Webpages with . beschrieben Featured Snippets erscheinen nicht zweimal auf Seite 1

Dieses Patent sagt uns, dass Google „die Antwortbox bereitstellen kann, wenn das System entscheidet, dass es sich bei der Abfrage um eine antwortsuchende Abfrage handelt“.

Es gibt verschiedene Möglichkeiten, wie Google eine Abfrage als antwortsuchende Abfrage einstufen kann, je nachdem, ob darin Begriffe verwendet werden, die einem bestimmten Fragetyp entsprechen.

Diese Fragen können ein Antwortfeld auslösen, indem sie Fragebegriffe wie „Wie“, „Warum“ usw.

Dieses Patent sagt uns, dass diese Fragebegriffe nicht immer erforderlich sind und ein Antwortfeld angezeigt werden könnte, selbst wenn eine Anfrage nicht als Frage formuliert ist und kein Fragewort enthält.

Aber wenn eine Abfrage so lautet wie "Wie kocht man eine Kartoffel?" oder „Wie macht man Pommes Frites?“ oder „Wie macht man Kartoffelpüree?“ es sucht wahrscheinlich nach einem Antwortfeld.

Diese Fragebegriffe und tatsächlichen Fragen müssen jedoch nicht vorhanden sein, um ein Antwortfeld auszulösen. Google kann sich Anfragen ansehen und entscheiden, ob sie am besten durch einen Antworttyp beantwortet werden:

Stattdessen wird die Antwort im Antwortfeld als eine gute Antwort identifiziert, da das Suchsystem festgestellt hat, dass der Fragetyp, der der Abfrage entspricht, häufig einem Antworttyp zugeordnet ist, der mit dem Text des Dokuments übereinstimmt, auf das durch das Suchergebnis verwiesen wird.

Eine Antwort-Scoring-Engine

Flussdiagramm für die Suche nach Antworten

Wenn jemand eine Suche durchführt. Ihre Abfrage führt dazu, dass als Antwort auf diese Abfrage Dokumente zurückgegeben werden.

Eine Engine für die Bewertung von Antworten empfängt Dokument-IDs und kann Antworten generieren, die in die Suchergebnisseite aufgenommen werden können.

Diese Dokument-IDs identifizieren eine Teilmenge von Dokumenten, auf die in den Suchergebnissen verwiesen wird.

Eine Antwortbewertungsmaschine kann eine Antwort unter Verwendung von Fragetyp/Antworttyp-Paaren erzeugen, die von einer Trainingsmaschine empfangen werden. (Dies könnten die Frage und die Antwort sein, die in einem Antwortfeld angezeigt werden.)

Die Antwortbewertungsmaschine kann für die Abfrage einen oder mehrere Fragetypen identifizieren, die den Begriffen der Abfrage entsprechen, und für jeden Fragetyp einen oder mehrere dem Frageelement zugeordnete Antworttypen.

Jeder Fragetyp gibt ein oder mehrere Frageelemente an, die für eine antwortsuchende Abfrage charakteristisch sind.

In ähnlicher Weise spezifiziert jeder entsprechende Antworttyp ein oder mehrere Antwortelemente, die für eine Antwort auf eine antwortsuchende Anfrage charakteristisch sind.

Im Folgenden werden Fragetypen und Antworttypen bezüglich Fig. 2 genauer beschrieben. 3.

Die Trainings-Engine identifiziert Paare von Fragetypen und Antworttypen.

Die Trainings-Engine verarbeitet Trainingsbeispiele in einer Sammlung von Trainingsdaten, die Paare von Fragen und Antworten auf die Fragen enthalten können.

Eine Frage und eine Antwort können ausgewählt werden, um auf die Anfrage zu antworten, wie beispielsweise Folgendes bei einer Anfrage zum Reifenwechsel:

So wechseln Sie einen Reifen

Google hat Informationen zu bestimmten Arten von Fragen bereitgestellt, wie z.

Das Patent, über das ich in diesem Beitrag geschrieben habe, konzentrierte sich darauf, Vertrauen in die Schritte zu finden, die eine solche Anfrage beantworten könnten, und nicht auf dieses, bei dem es mehr darum geht, zu entscheiden, ob eine Anfrage eine Antwort sucht und ob eine Antwort eine gute Antwort liefert zu dieser Abfrage.

Frageelement-/Antwortelementpaare generieren

Dieses Suchsystem verarbeitet Frage/Antwort-Paare in Trainingsdaten, um Fragetypen und entsprechende Antworttypen zu definieren.

Es berechnet Statistiken, die darstellen, welche Fragetyp/Antworttyp-Paare am wahrscheinlichsten gute Antworten für antwortsuchende Abfragen liefern.

Diese Bestimmung findet auf einem Computersystem statt, das als Trainingsmaschine bezeichnet wird.

Es beginnt mit der Identifizierung von Trainingsdaten.

Trainingsdaten sind Daten, die Fragen mit Antworten verknüpfen, z. B. Frage-Antwort-Paare.

Trainingsdaten können Abfragen umfassen, die als antwortsuchend bestimmt wurden, und Ausschnitte von Suchergebnissen, die von Suchenden entweder allgemein oder häufiger als andere Suchergebnisse ausgewählt wurden.

In diesen Trainingsdaten kann das System bestimmte Arten von Wörtern und Phrasen aus den Fragen herausfiltern, wie beispielsweise Stoppwörter.

„Wie man Lasagne kocht“ kann also gefiltert werden, um „Wie kocht Lasagne“ zu generieren.

Einige Teile können aus einer Frage entfernt werden, wie beispielsweise Adjektive und Präpositionalphrasen aus einer Frage.

So kann eine Abfrage wie "Wo befindet sich die Speiseröhre im menschlichen Körper" gefiltert werden, um "Wo befindet sich die Speiseröhre" zu generieren.

Das System kann auch Begriffe in den Fragen und Antworten in kanonische Formen umwandeln.

Dies bedeutet, dass flektierte Formen des Begriffs „kochen“, z. B. „kochen“, „gekocht“, „köche“ usw., möglicherweise in die kanonische Form „kochen“ umgewandelt werden.

Fragetypen können aus Frageelementen in den Trainingsdaten definiert werden.

Ein Fragetyp ist eine Gruppe von Frageelementen, die zusammengenommen die Merkmale einer antwortsuchenden Abfrage darstellen.

Der Fragetyp (wie, kochen) spezifiziert zwei Frageelemente, „wie“ und „kochen“.

Eine Abfrage stimmt mit diesem Fragetyp überein, wenn sie Begriffe enthält, die allen Fragenelementen im Fragetyp entsprechen.

Die Abfrage „wie man Pizza kocht“ entspricht dem Fragetyp (wie, kochen), da die Abfrage alle Frageelemente des Fragetyps enthält.

Das Patent sagt uns, dass Fragetypen geordnet oder ungeordnet sein können. (Dies scheint ein Hinweis darauf zu sein, ob es sich bei einer Abfrage um eine „Wie“-Abfrage handelt, die bestimmte Schritte in einer bestimmten Reihenfolge anzeigt.)

Das Patent verwendet eine geschweifte Klammer, um zu erkennen, ob eine Abfrage eine geordnete Struktur verwendet.

Eine Abfrage entspricht also dem Fragetyp {wie, kochen} genau dann, wenn der Begriff „wie“ in der Abfrage vor dem Begriff „kochen“ vorkommt.

Ein Frage- und ein Antwort-Paar stimmen überein, indem für jede Frage untersucht wird, welche Begriffe der Frage mit einem Satz von Frageelementtypen übereinstimmen.

Jeder Frageelementtyp repräsentiert ein Merkmal eines in einer Frage vorkommenden N-Grammes.

Häufige Fragenelementtypen

Das Patent bietet einige gängige Frageelementtypen, darunter:

Entitätsinstanz – Der Entitätsinstanztyp stimmt mit N-Grammen überein, die Entitätsinstanzen darstellen. Als Beispiel entspricht das N-Gramm „Abraham Lincoln“ einem Frageelementtyp, da dieses N-Gramm eine Instanz einer Entität ist. Wenn ein N-Gramm diesem Frageelementtyp entspricht, enthält der resultierende Fragetyp ein Frageelement, das die Entitätsinstanz des N-Grammes repräsentiert, zB (Entity/Abraham_Lincoln). Andere N-Gramme, die mit Aliasnamen derselben Entität übereinstimmen, werden auch diesem Frageelement entsprechen, z. B. „Abe Lincoln“, „President Lincoln“ und „Honest Abe“.

Entitätsklasse – Der Entitätsklassentyp stimmt mit N-Grammen überein, die Instanzen von Entitätsklassen darstellen. Als Beispiel passt das N-Gramm „Lasagne“ zu diesem Frageelementtyp, da es eine Instanz einer Entitätsklasse ist, die Speisen darstellt. Wenn ein N-Gramm diesem Frageelementtyp entspricht, enthält ein resultierender Fragetyp ein Frageelement, das die Entitätsklasse repräsentiert, z. B. (Entität/Gerichte)

Ein Teil der Sprachklasse -Der Part-of-Speech - Klasse Typ entspricht n-Gramm , die Instanzen von Teil-of-Sprachklassen darstellen. Zum Beispiel passt das N-Gramm „run“ zu diesem Frageelementtyp, weil es eine Instanz einer Wortartklasse „verbs“ ist. Wenn ein N-Gramm mit diesem Frageelementtyp übereinstimmt, enthält der resultierende Fragetyp ein Frageelement, das die übereinstimmende Wortartklasse repräsentiert, zB (Wortart/Verb).

Stammwort -Der Wortstamm Typ entspricht n-Gramme , dass das System das Stammwort einer Frage sein bestimmt. Im Allgemeinen ist ein Wurzelwort ein Begriff, der nicht von anderen Begriffen in der Frage abhängt. Zum Beispiel in „Wie man Lasagne kocht“ ist „kochen“ das Wurzelwort. Daher würde „cook“ diesem Frageelementtyp entsprechen, wenn „cook“ in der Abfrage „wie man Lasagne kocht“ vorkommt. Der resultierende Fragetyp enthält das passende N-Gramm, zB (cook).

N-Gramm – Der N-Gramm-Typ entspricht jedem N-Gramm. Das Patent sagt uns jedoch, dass das System n-Gramm-Frageelemente auf einen vordefinierten Satz von n-Grammen beschränken kann, um die übermäßig umfangreiche Erzeugung von Fragetypen aus den Trainingsdaten zu vermeiden.

Ein Suchsystem kann N-Gramm-Frageelemente vordefinieren, um Fragewörter und -phrasen einzuschließen, wie etwa „wie“, „wie“, „wann“, „wann war“, „warum“, „wo“, „was“, „wer“ und „wer“.

Es können mehrere dieser Frageelementtypen angezeigt werden.

Das N-Gramm „George Washington“ stimmt also sowohl mit dem Entitätsinstanztyp überein, was zu dem Frageelement Entities/George_Washington führt, als auch mit dem Entitätsklassentyp, was zu dem Frageelement Entities/us_presidents führt.
Das N-Gramm „George Washington“ kann auch dem N-Gramm-Typ entsprechen, je nachdem, wie das System die Anzahl der N-Gramm-Typen begrenzt.

Außerdem entspricht der Begriff „cook“ dem Wortstammtyp, dem Entitätsinstanztyp und dem Entitätsklassentyp.

Ein Beispiel für erweiternde Fragen und Antworttypen

Nachdem dieses System übereinstimmende Frageelementtypen identifiziert hat, kann es Fragetypen generieren, indem es verschiedene Kombinationen von Frageelementen mit unterschiedlicher Länge und mehreren Allgemeinheitsebenen generiert.

Dies kann die Entdeckung von Fragetypen ermöglichen, die ein gutes Gleichgewicht zwischen Allgemeinheit und Spezifität bieten.

Zum Beispiel „Wie man Lasagne kocht“.

Der erste Begriff „wie“ entspricht nur dem N-Gramm-Elementtyp.

Aber „cook“ stimmt mit dem N-Gram-Elementtyp, dem Wurzelwort-Elementtyp und dem Entitätsklassen-Elementtyp für die Klasse „Hobbys“ überein.

Somit kann das System die folgenden zweielementigen Fragetypen generieren, indem verschiedene Kombinationen von passenden Frageelementen ausgewählt werden:

(wie, kochen)

(wie, Entität/Hobbys)

Der Begriff „Lasagne“ entspricht dem N-Gram-Elementtyp und dem Entity-Class-Elementtyp „Gerichte“. Somit kann das System die folgenden dreielementigen Fragetypen generieren, indem verschiedene Kombinationen von passenden Frageelementen ausgewählt werden:

(wie, kochen, Lasagne)

(wie, kochen, Wesen/Gerichte)

(wie, Wesen/Hobbys, Wesen/Gerichte)

(wie, Wesen/Hobbys, Lasagne)

Auswahl von Antwortelementtypen

Das Patent definiert einen „Antworttyp“ als eine Gruppe von Antwortelementen, die gemeinsam die Merkmale einer richtigen Antwort auf eine antwortsuchende Frage darstellen.

Dieser antwortsuchende Abfrageansatz kann Antworttypen erzeugen, indem diese Antworten in den Trainingsdaten verarbeitet werden und für jede Antwort entschieden wird, welche Ausdrücke der Antwort mit irgendeinem aus einem Satz von Antwortelementtypen übereinstimmen.

Das Suchsystem kann Antworttypen erzeugen, indem es Antwortelemente findet, die zu den Antwortelementtypen passen.

Einige gängige Antwortelementtypen und die entsprechenden Antwortelemente umfassen:

Messung – Der Messtyp kann Begriffen entsprechen, die numerische Messungen darstellen. Diese können umfassen:

  • Daten, z. B. „1997“, „Feb. 2, 1997“ oder „19.02.1997“
  • Physikalische Maße, z. B. „1,85 cm“, „12 Zoll“
  • Zeitdauer, „10 Minuten“, „1 Stunde“
  • Jede andere geeignete numerische Messung

N-Gramm – Der N-Gramm-Typ stimmt mit jedem N-Gramm in einer Antwort überein. Um die übermäßig umfangreiche Erzeugung von Antworttypen zu vermeiden, kann das System n-Gramm-Antwortelemente auf n-Gramm unter einem bestimmten Wert von n beschränken, was nicht üblich ist. Zum Beispiel kann das System n-Gramm-Antwortelemente auf 1-Gramm und 2-Gramm mit einer inversen Dokumentenhäufigkeitsbewertung beschränken, die einen Schwellenwert erfüllt.

Verb – Der Verbtyp stimmt mit allen Begriffen überein, die das System als Verben bestimmt.

Präposition – Die Präpositionstypen entsprechen allen Begriffen, die das System als Präpositionen bestimmt.

Uns wird gesagt, dass ein System Antwortelementtypen für jede Wortart definieren kann.

In einigen Implementierungen kann das System jedoch nur Verb- und Präpositionstypen verwenden.

Entity_instance – Der Entitätsinstanztyp stimmt mit N-Grammen überein, die Entitätsinstanzen darstellen.

Ein Antworttyp kann ein Antwortelement umfassen, das eine Entitätsinstanz repräsentiert, zB (Entität/Abraham_Lincoln).

N-Gramm-nahe Entität – Der N-Gramm-Near-Entity-Typ verwendet sowohl den N-Gramm-Antwortelementtyp als auch den Entitätsinstanz-Antwortelementtyp und erlegt auch eine Einschränkung auf, dass das N-Gramm in einer Antwort in der Nähe der Entitätsinstanz auftritt. Das System kann ein N-Gramm als nahe einer Entitätsinstanz betrachten, wenn das N-Gramm:

  • Tritt in der Antwort innerhalb einer Schwellenwertanzahl von Begriffen der Entitätsinstanz auf
  • Tritt im selben Satz wie die Entitätsinstanz auf
  • Tritt in derselben Passage wie die Entitätsinstanz auf

Beispielsweise kommt in der Antwort „Obama wurde in Honolulu geboren“ das ungewöhnliche N-Gramm „Honolulu“ innerhalb von fünf Begriffen der Entitätsinstanz „Obama. Der resultierende Antworttyp enthält das N-Gramm und die Entitätsinstanz, zB (Entität/Obama in der Nähe von Honolulu)

Verb nahe Entität – Der Verb-nahe-Entitätstyp verwendet sowohl den Verb-Antwortelementtyp als auch den Entitätsinstanz-Antwortelementtyp und legt in ähnlicher Weise eine Einschränkung fest, dass das Verb in der Nähe der Entitätsinstanz in einer Antwort vorkommt. Beispielsweise kann der resultierende Antworttyp für „Obama wurde in Honolulu geboren“ das Antwortelement (Entität/Obama in der Nähe von geboren) enthalten.

Präposition nahe Entität – Der Typ „Präposition-nahe-Entität“ verwendet sowohl den Elementtyp „Präpositionsantwort“ als auch den Antwortelementtyp „Entitätsinstanz“ und erlegt in ähnlicher Weise eine Einschränkung auf, dass die Präposition in der Antwort in der Nähe der Entitätsinstanz auftritt. Beispielsweise kann der resultierende Antworttyp für „Obama wurde in Honolulu geboren“ das Antwortelement (Entität/Obama in der Nähe von) enthalten.

Verb Klasse -Das Verb Klassentyp entspricht n-Gramm , die Instanzen Verbklassen darstellen. Beispielsweise kann das System alle der folgenden Verben als Instanzen der Klasse verb/blend identifizieren: add, blend, kombinieren, mischen, verbinden, cremieren, verschmelzen, verbinden, verknüpfen, zusammenführen, mischen, mischen, vernetzen, bündeln. Der resultierende Antworttyp enthält ein Frageelement, das die Verbklasse repräsentiert, zB (verb/blend).

Skip Gramm – Der Skip-Gram-Typ spezifiziert ein Bigramm sowie eine Reihe von Termen, die zwischen den Termen des Bigramms vorkommen. Wenn der Skip-Wert beispielsweise 1 ist, stimmt das Skip-Gramm „wo * das“ mit allen folgenden N-Grammen überein: „wo ist das“, „wo war das“, „wo ist das“ und „wo hat“ das." Der resultierende Antworttyp enthält ein Antwortelement, das das Bigramm und den Sprungwert darstellt, zB (wo * der), wobei das einzelne Sternchen einen Sprungwert von 1 darstellt.

Das System berechnet Anzahlen für Fragetyp/Antworttyp-Paare.

Bewertung von Frage- und Antwortpaaren

Das Patent sagt uns, dass das System eine Punktzahl für jedes Fragetyp/Antworttyp-Paar berechnet.

Diese Punktzahl basiert auf „der Vorhersagequalität eines bestimmten Fragetyp-/Antworttyp-Paares, wie sie sich in den Trainingsdaten widerspiegelt“.

Ein Fragetyp/Antworttyp-Paar mit einer guten Punktzahl hat wahrscheinlich einen Antworttyp mit einem oder mehreren Antwortelementen, die zusammen die Merkmale einer richtigen Antwort auf eine antwortsuchende Abfrage darstellen, die durch den Fragetyp repräsentiert wird.

Das System wartet typischerweise, bis alle Zählungen berechnet wurden, bevor es eine Punktzahl für ein bestimmtes Fragetyp/Antworttyp-Paar berechnet.

In einigen Implementierungen berechnet das System für jedes Paar einen punktweisen gegenseitigen Informationswert (PMI). Ein PMI-Wert von null bedeutet, dass Frage und Antwort unabhängig sind und keinen Zusammenhang haben. Eine hohe Punktzahl hingegen stellt eine höhere Wahrscheinlichkeit dar, dass der Antworttyp Antworten auf Fragen findet, die dem entsprechenden Fragetyp entsprechen.

Das System wählt Fragetyp/Antworttyp-Paare mit den besten Bewertungen aus. Diese können in eine Rangfolge gebracht werden, und es können Paare ausgewählt werden, die eine Punktzahl aufweisen, die einen Schwellenwert erfüllt.

Antworttypen der ausgewählten Paare repräsentieren wahrscheinlich richtige Antworten auf antwortsuchende Anfragen, die durch die entsprechenden Fragetypen repräsentiert werden.

Dieses antwortsuchende Abfragesystem kann dann die ausgewählten Fragetyp/Antworttyp-Paare nach Fragetyp indizieren, so dass das System alle Antworttypen, die einem bestimmten Fragetyp zugeordnet sind, während der Online-Bewertung effizient erhalten kann.

Es kann den Fragetypindex nach Punktzahlen sortieren, um in Echtzeit Entscheidungen darüber zu treffen, wie viele Antworttypen Sie ausprobieren möchten.

Dieses System kann jeden Antworttyp, der einem Fragetyp zugeordnet ist, nach Punktzahl sortieren, so dass die Antworttypen mit den höchsten Punktzahlen dann zur Abfragezeit zuerst verarbeitet werden können.

Verfahren zum Generieren von Antworten für antwortsuchende Anfragen

Dieses Patent erinnerte mich an ein anderes Patent, über das ich in der Vergangenheit geschrieben habe und bei dem es um die Beantwortung von Fragen ging. Über dieses Patent habe ich in dem Beitrag „Use Schema to Write Answer Passages for Featured Snippets“ von Google geschrieben?

In diesem Beitrag erfahren wir, wie Google zwischen gut geschriebenen Textantworten auf Fragen wählen kann, denen auch strukturierte Daten zugeordnet sind, um diesen Antworten zusätzliche Fakten zu liefern, bietet jedoch nicht die Analyse, die dieses Patent durch Betrachtung von Antwortelementen bietet. Suchen von Fragen und Elementen dieser Antworten.

Die Beschreibung in diesem Patent endet mit der Bereitstellung weiterer Details darüber, wie Antworten speziell für antwortsuchende Abfragen erzeugt werden.

Es beginnt mit dem Empfang einer Anfrage und erhält Suchergebnisse dafür

Bestimmen Sie dann einen Fragetyp, der der Abfrage entspricht.

Wenn die Abfrage keinem der generierten Fragetypen entspricht, kann das System feststellen, dass es sich bei der Abfrage nicht um eine antwortsuchende Abfrage handelt.

Wenn dies der Fall ist, antwortet es ohne Antwortfeld und zeigt die Suchergebnisseite ohne Antwort an.

Der Typ der antwortsuchenden Abfrage wird durch die Elemente des passenden Fragetyps definiert. Das Suchsystem kann dann über Textpassagen entscheiden, die wahrscheinlich gute Antworten auf die antwortsuchende Abfrage sind.

Dazu kann es auf einen Fragetypindex zugreifen, der jeden passenden Fragetyp einem oder mehreren Antworttypen zuordnet.

Das Suchsystem kann Bewertungen für Antworten gemäß den erhaltenen Antworttypen aus einer Suche berechnen.

Das Suchsystem kann bestimmen, ob die Bewertung der Antwort mit der höchsten Bewertung einen Schwellenwert erfüllt. Wenn die Punktzahl einen Schwellenwert nicht erfüllt, kann das System entscheiden, dass die Antwort keine gute Antwort auf die Abfrage ist, und kann die Anzeige dieser Antwort auf der Suchergebnisseite ablehnen.

Wenn die Bewertung den Schwellenwert erfüllt, kann das Suchsystem die Antwort mit der höchsten Bewertung in die Suchergebnisseite aufnehmen und die Suchergebnisseite als Reaktion auf die Abfrage bereitstellen.

Abschließende Erkenntnisse zu Beantwortungsanfragen

Dieses Patent bietet einige zusätzliche Aspekte der Funktionsweise des in diesem Patent beschriebenen Prozesses und gibt an, dass es auch andere Schritte umfassen kann, die nicht unbedingt abgedeckt sind.

Ich habe auf mindestens ein weiteres Patent hingewiesen (dasjenige zu How-to-Abfragen), das weitere Aspekte der Auswahl einer Antwort beschreibt, die in diesem Patent ebenfalls nicht detailliert sind.

Daher ist es sinnvoll, sich andere Patente anzusehen, die zusätzliche Aspekte der Beantwortung von Anfragen abdecken, die sich speziell auf die Suche nach Antworten konzentrieren, wie die, die ich oben über Antworten in natürlicher Sprache und die Beantwortung von Anfragen mithilfe von Antwortpassagen verlinkt habe.

Ich habe auch darüber geschrieben, wie Google als Antwort auf Abfragen Wissensgraphen erstellen und Assoziationsbewertungen zwischen Entitäten und Klassifikationen und Attributen dieser Entitäten berücksichtigen könnte, um Fragen im Beitrag Antworten auf Fragen mit Wissensgraphen zu beantworten.

Wir haben keine klare Anleitung, wie die Ansätze in den verschiedenen Patenten, um die es in diesen Beiträgen geht, zusammenpassen, aber seien Sie sich bewusst, dass sie existieren und möglicherweise bei der Bestimmung, wie alles zusammenpasst, wenn Google auf antwortsuchende Anfragen reagiert, berücksichtigt werden sollten hilfreich.