Jakie są dobre odpowiedzi na pytania, które zadają pytania?
Opublikowany: 2020-03-24Elementy zapytań poszukujących odpowiedzi i elementy odpowiedzi
Google otrzymał niedawno patent na zapytania związane z wyszukiwaniem odpowiedzi i udzielanie na nie dobrych odpowiedzi.
Wiedza o tym, jakie są elementy zapytań szukających odpowiedzi, może pomóc ludziom zrozumieć, co mogą potrzebować opublikować, aby udzielić odpowiedzi na te zapytania.
Ciekawe może więc być zobaczenie, co ten patent mówi o tym, czego Google może szukać pod względem dobrych odpowiedzi na zapytania.
Ten patent skupia się na:
Jak system wyszukiwania może nauczyć się charakterystycznych elementów zapytań w celu uzyskania odpowiedzi i odpowiedzi na zapytania w celu uzyskania odpowiedzi.
Opis patentu zaczyna się od powiedzenia nam więcej o dobrych odpowiedziach na pytania:
Ogólnie rzecz biorąc, system wyszukiwania odbiera zapytanie wyszukiwania i uzyskuje wyniki wyszukiwania, które spełniają zapytanie wyszukiwania. Wyniki wyszukiwania identyfikują zasoby, które są istotne lub reagują na zapytanie wyszukiwania, np. zasoby dostępne w Internecie. System wyszukiwania może identyfikować wiele różnych typów wyników wyszukiwania w odpowiedzi na otrzymane zapytanie, np. wyniki wyszukiwania identyfikujące strony internetowe, obrazy, filmy, książki lub artykuły z wiadomościami, wyniki wyszukiwania przedstawiające wskazówki dojazdu, a także wiele innych rodzaje wyników wyszukiwania.
Może to obejmować znajomość przez Google informacji o podmiotach w tych zapytaniach i wykorzystanie tych informacji w odpowiedzi:
Systemy wyszukiwania mogą korzystać z różnych podsystemów w celu uzyskania zasobów związanych z zapytaniem. Na przykład system wyszukiwania może utrzymywać bazę wiedzy, która przechowuje informacje o różnych jednostkach i dostarczać informacje o jednostkach, gdy zapytanie wyszukiwania odwołuje się do aliasu jednostki. System może przypisać jeden lub więcej aliasów ciągu tekstowego do każdej jednostki. Na przykład Statua Wolności może być powiązana z pseudonimami „Statua Wolności” i „Lady Liberty”. Aliasy nie muszą być unikalne wśród jednostek. Na przykład „jaguar” może być aliasem zarówno zwierzęcia, jak i producenta samochodów.
Może to również obejmować rozumienie przez Google różnych części mowy w zapytaniach i wykorzystywanie tych informacji również w odpowiedziach:
Innym przykładem podsystemu wyszukiwania jest tager części mowy. Tagger części mowy analizuje terminy w zapytaniu i klasyfikuje każdy termin jako konkretną część mowy, np. rzeczownik, czasownik lub dopełnienie bliższe. Innym przykładem podsystemu wyszukiwania jest identyfikator słowa głównego. Biorąc pod uwagę konkretne zapytanie, identyfikator drewna głównego może zaklasyfikować termin w zapytaniu jako słowo główne, czyli słowo, które nie zależy od żadnych innych słów w zapytaniu. Na przykład w zapytaniu „jak gotować lasagne” identyfikator słowa głównego może określić, że słowo „gotować” jest słowem głównym zapytania.
Przede wszystkim ten patent dotyczy w szczególności znajdowania zwięzłych odpowiedzi na zapytania skoncentrowane na wyświetlaniu odpowiedzi na pytania wyszukiwarek:
Ta specyfikacja opisuje technologie związane z klasyfikacją zapytań jako szukających odpowiedzi i generowaniem odpowiedzi na zapytania poszukujące odpowiedzi. Zapytanie w celu uzyskania odpowiedzi to zapytanie wysłane przez użytkownika, który szuka zwięzłej odpowiedzi. Na przykład „kiedy urodził się George Washington” zostałby sklasyfikowany przez system jako zapytanie w celu uzyskania odpowiedzi, ponieważ system może określić, że prawdopodobnie użytkownik, który je wystawia, szuka zwięzłej odpowiedzi, np. „luty. 22, 1732”.
Przykładowa odpowiedź szukająca zapytania, z rysunków patentu:

Klasyfikowanie zapytań jako poszukujących odpowiedzi i generowanie odpowiedzi na zapytania poszukujące odpowiedzi
Zapytanie w celu uzyskania odpowiedzi to takie, którego szuka osoba wyszukująca, która szuka zwięzłej odpowiedzi.
Jednym z przykładów jest: „Kiedy urodził się George Washington?” Można to zaklasyfikować jako zapytanie w celu uzyskania odpowiedzi, ponieważ można stwierdzić, że prawdopodobnie osoba wyszukująca szuka odpowiedzi takiej jak: „Luty. 22, 1732”.
Patent mówi nam, że nie wszystkie zapytania mają na celu poszukiwanie odpowiedzi i mogą one zwracać tylko wyniki wyszukiwania, a nie odpowiadać na pola z odpowiedziami.
W przypadku niektórych zapytań najlepszą odpowiedzią może wydawać się dostarczenie wyszukiwarce posortowanej listy wielu dokumentów związanych z zapytaniem. Ktoś wyszukuje hasło „restauracje w Nowym Jorku” i prawdopodobnie chce mieć listę dokumentów dotyczących różnych miejsc do jedzenia w Nowym Jorku.
Wskazuje się nam cel tego patentu i wyjaśnia, dlaczego istnieje:
Techniki opisane poniżej odnoszą się zarówno do tego, jak system może klasyfikować zapytanie jako zapytanie poszukujące odpowiedzi, jak i do tego, jak system może identyfikować części responsywnych dokumentów, które mogą być dobrymi odpowiedziami na zapytanie poszukujące odpowiedzi.
Po raz pierwszy widzę od Google coś, co mówi nam, jaka może być „dobra odpowiedź” na pytanie w polu odpowiedzi.
Identyfikowanie zapytań wyszukiwania odpowiedzi
Opis patentu mówi nam, jaki może być proces rozpoznawania zapytań szukających odpowiedzi.
Rozpoczyna się od podsumowania aspektów patentu i przedstawia aspekty jego działania, które omówię bardziej szczegółowo w dalszej części tego postu.
Proces identyfikacji zapytania w celu uzyskania odpowiedzi obejmuje:
- Otrzymywanie zapytania zawierającego wiele terminów
- Klasyfikowanie zapytania jako zapytania w celu uzyskania odpowiedzi określonego typu pytania
- Uzyskanie jednego lub więcej typów odpowiedzi powiązanych z konkretnym typem pytania
- Gdzie każdy typ odpowiedzi określa jeden lub więcej odpowiednich elementów odpowiedzi reprezentujących cechy prawidłowej odpowiedzi na zapytanie w celu uzyskania odpowiedzi
- Uzyskanie wyników wyszukiwania spełniających zapytanie, gdzie każdy identyfikuje dokument
- Obliczanie odpowiedniego wyniku dla każdego z fragmentów tekstu w każdym dokumencie zidentyfikowanym w wynikach wyszukiwania
- Gdzie punktacja za każdy fragment tekstu jest oparta na tym, ile z jednego lub więcej typów odpowiedzi pasuje do fragmentu tekstu
- Zapewnienie, w odpowiedzi na zapytanie, prezentacji zawierającej informacje z co najmniej jednego fragmentu tekstu wybranego na podstawie odpowiedniej punktacji

Niektóre inne opcjonalne funkcje zaangażowane w ten proces:
- Zapewnienie pierwszego fragmentu tekstu i co najmniej jednego wyniku wyszukiwania spełniającego zapytanie
- Ustalenie, że fragmenty tekstu, które mają punktację, która spełnia próg
- Wybór fragmentów tekstu, które mają punktację spełniającą próg włączenia do prezentacji
Co to są zapytania poszukujące odpowiedzi?
Klasyfikowanie zapytań jako „zapytań szukających odpowiedzi” określonego typu może oznaczać:
- Dopasowywanie terminów zapytań do wielu typów pytań
- Gdzie każdy typ pytania określa liczbę elementów pytania, które łącznie reprezentują cechy odpowiadającego typu zapytania
- Ustalenie, że terminy zapytań pasują do pierwszego typu pytania z liczby typów pytań
W jaki sposób warunki zapytań odpowiadają typom pytań?
„n-gram” oznacza sekwencję słów o długości „n”, więc 2 gramy będą miały długość dwóch słów, a 3 gramy będą miały długość 3 słów. formułując to jako „n-gram”, proces w patencie zapewnia elastyczność w odkrywaniu różnych długości.
Ustalenie, że terminy zapytań pasują do poszczególnych typów pytań, oznacza:
- Ustalenie, że pierwszy n-gram w zapytaniu reprezentuje instancję jednostki
- Ustalenie, że pierwsze typy pytań zawierają elementy pytań reprezentujące instancje encji
Ustalenie, że terminy zapytań pasują do poszczególnych typów pytań, oznacza:
- Ustalenie, że pierwszy n-gram w zapytaniu reprezentuje instancję klasy
- Ustalenie, że typ pytania zawiera element pytania reprezentujący klasę
Ustalenie, że pierwszy fragment tekstu pasuje do pierwszego typu odpowiedzi jednego lub więcej typów odpowiedzi
- Podejmowanie decyzji, że pierwszy fragment tekstu ma n-gramy, które pasują do jednego lub więcej elementów odpowiedzi pierwszego typu odpowiedzi
- Pierwszy element odpowiedzi z jednego lub więcej elementów odpowiedzi może reprezentować pomiar liczbowy
Tam, gdzie ustalenie, że pierwszy fragment tekstu pasuje do pierwszego typu odpowiedzi, obejmuje ustalenie, że pierwszy fragment tekstu ma n-gram, który reprezentuje pomiar liczbowy.
- Pierwszy element odpowiedzi z jednego lub więcej elementów odpowiedzi reprezentuje klasę czasownika
- Ustalenie, że pierwszy fragment tekstu pasuje do pierwszego typu odpowiedzi, obejmuje ustalenie, że pierwszy fragment tekstu ma n-gram, który reprezentuje instancję klasy czasownika

Patent ten można znaleźć pod adresem:
Generowanie elementów zapytań szukających odpowiedzi i elementów odpowiedzi
Wynalazcy: Yi Liu, Preyas Popat, Nitin Gupta i Afroz Mohiuddin
Pełnomocnik: Google LLC
Patent USA: 10 592 540
Przyznano: 17 marca 2020 r.
Złożono: 28 czerwca 2016 r.
Abstrakcyjny
Metody, systemy i urządzenia, w tym programy komputerowe zakodowane na komputerowych nośnikach pamięci, do generowania odpowiedzi na zapytania w celu uzyskania odpowiedzi.
Jedna z metod obejmuje odbieranie zapytania zawierającego wiele terminów. Zapytanie jest klasyfikowane jako zapytanie poszukujące odpowiedzi określonego typu pytania i uzyskuje się jeden lub więcej typów odpowiedzi powiązanych z określonym typem pytania.
Uzyskiwane są wyniki wyszukiwania spełniające zapytanie, a odpowiedni wynik jest obliczany dla każdego z co najmniej jednego fragmentu tekstu występującego w każdym dokumencie zidentyfikowanym w wynikach wyszukiwania, przy czym wynik za każdy fragment tekstu jest oparty na tym, ile jednego lub więcej typów odpowiedzi pasuje do fragmentu tekstu.
W odpowiedzi na zapytanie udostępniana jest prezentacja zawierająca informacje z co najmniej jednego fragmentu tekstu wybranego na podstawie odpowiedniego wyniku.
Przedstawienie odpowiedzi na zapytanie w celu uzyskania odpowiedzi
Strona wyników wyszukiwania może zawierać wyniki wyszukiwania w sieci oraz pole odpowiedzi.
Więcej o polach odpowiedzi napisałem w poście Jak Google może wyzwalać wyniki pól odpowiedzi dla zapytań.
Wyniki wyszukiwania w sieci mogą zawierać łącza do dokumentów z indeksu internetowego Google.
Są to wyniki, które są uważane za prawdopodobnie trafne dla zadanego zapytania i zawierają tytuł, fragment i wyświetlany link.
Można je przeglądać w wynikach wyszukiwania, aby dać wyszukującemu wyobrażenie o tym, jak trafny może być konkretny link do zapytania, które wykonał. I umożliwiłyby wyszukiwarce odwiedzenie strony, z której pochodzą.
Pole odpowiedzi może bezpośrednio zawierać odpowiedź na zapytanie. Odpowiedź ta prawdopodobnie zostanie uzyskana z tekstu dokumentu, do którego odwołuje się wyniki wyszukiwania w sieci.
Pisałem o takich odpowiedziach w poście Polecane fragmenty – Wyniki wyszukiwania w języku naturalnym dla zapytań intencji. Pochodzą one prawdopodobnie z wiarygodnych dokumentów, które prawdopodobnie znajdują się na pierwszej stronie zestawu wyników wyszukiwania.
Google pokazywał te wyniki w polu odpowiedzi nad wynikami organicznymi w odpowiedzi na zapytanie i pokazywał tę stronę po raz drugi w SERP, ale ostatnio zdecydowali się traktować takie odpowiedzi jako pojedyncze wyniki, jak opisano w The Search Engine Journal w Google: Strony internetowe z Polecane fragmenty nie pojawią się dwa razy na stronie 1
Ten patent mówi nam, że Google może „udostępnić pole odpowiedzi za każdym razem, gdy system uzna, że zapytanie jest zapytaniem w celu uzyskania odpowiedzi”.
Istnieje kilka różnych sposobów, w jakie Google może uznać zapytanie za zapytanie w celu uzyskania odpowiedzi, w zależności od tego, czy używa terminów pasujących do określonego typu pytania.
Te pytania mogą wywołać okienko odpowiedzi, włączając takie terminy jak „jak”, „dlaczego” itp.
Ten patent mówi nam, że te terminy pytające nie są potrzebne przez cały czas, a pole odpowiedzi może być wyświetlane nawet wtedy, gdy zapytanie nie jest sformułowane jako pytanie i nie zawiera słowa pytającego.
Ale gdy zapytanie brzmi np. „Jak ugotować ziemniaka?” lub „Jak zrobić frytki?” lub „Jak zrobić puree ziemniaczane?” prawdopodobnie szuka pola odpowiedzi.
Ale te terminy pytań i rzeczywiste pytania nie muszą być obecne, aby wywołać okienko odpowiedzi. Google może przyjrzeć się zapytaniom i zdecydować, czy najlepiej odpowiada na nie typ odpowiedzi:
Odpowiedź w polu odpowiedzi jest uznawana za dobrą, ponieważ system wyszukiwania ustalił, że typ pytania pasujący do zapytania jest często powiązany z typem odpowiedzi, który odpowiada tekstowi dokumentu, do którego odwołuje się wynik wyszukiwania.
Silnik punktacji odpowiedzi

Kiedy ktoś przeprowadza wyszukiwanie. Ich zapytanie powoduje zwrócenie dokumentów w odpowiedzi na to zapytanie.
Mechanizm oceniania odpowiedzi otrzymuje identyfikatory dokumentów i może generować odpowiedzi, które mogą zostać uwzględnione na stronie wyników wyszukiwania.
Te identyfikatory dokumentów będą identyfikować podzbiór dokumentów, do których odwołują się wyniki wyszukiwania.
Silnik punktacji odpowiedzi może generować odpowiedź za pomocą par typ pytania/typ odpowiedzi otrzymanych z silnika szkoleniowego. (Mogą to być pytanie i odpowiedź pokazane w polu odpowiedzi.)
Mechanizm oceniania odpowiedzi może zidentyfikować dla zapytania jeden lub więcej typów pytań pasujących do warunków zapytania, a dla każdego typu pytania jeden lub więcej typów odpowiedzi skojarzonych z elementem pytanie.
Każdy typ pytania określa jeden lub więcej elementów pytania, które są charakterystyczne dla zapytania w celu uzyskania odpowiedzi.
Podobnie każdy odpowiadający typ odpowiedzi określa jeden lub więcej elementów odpowiedzi, które są charakterystyczne dla odpowiedzi na zapytanie w celu uzyskania odpowiedzi.
Typy pytań i typy odpowiedzi zostaną opisane bardziej szczegółowo poniżej w odniesieniu do RYS. 3.
Silnik uczący identyfikuje pary typów pytań i typów odpowiedzi.
Silnik uczący przetwarza przykłady uczące w zbiorze danych uczących, który może zawierać pary pytań i odpowiedzi na pytania.
W odpowiedzi na zapytanie można wybrać pytanie i odpowiedź, na przykład następujące w zapytaniu dotyczącym wymiany opony:

Google dostarcza informacji o konkretnych typach pytań, takich jak pytania typu how-to, o których pisałem ostatnio bardziej szczegółowo w poście Jak Google może wybierać odpowiedzi na pytania typu How-to.
Patent, o którym pisałem w tym poście, skupiał się na próbie znalezienia pewności co do kroków, które mogą odpowiedzieć na takie zapytanie, a nie na tym, który dotyczy raczej decydowania, czy zapytanie jest zapytaniem poszukującym odpowiedzi i czy odpowiedź daje dobrą odpowiedź do tego zapytania.
Generowanie par element pytanie/odpowiedź
Ten system wyszukiwania będzie przetwarzać pary pytanie/odpowiedź w danych treningowych w celu zdefiniowania typów pytań i odpowiadających im typów odpowiedzi.
Obliczy statystyki, które reprezentują, które pary typu pytania/typ odpowiedzi z największym prawdopodobieństwem wygenerują dobre odpowiedzi dla zapytań poszukujących odpowiedzi.
Ustalenie to odbywa się w systemie komputerowym zwanym silnikiem uczącym.
Zaczyna się od identyfikacji danych treningowych.

Dane treningowe to dane, które łączą pytania z odpowiedziami, takie jak pary pytań i odpowiedzi.
Dane szkoleniowe mogą obejmować zapytania określone jako poszukujące odpowiedzi oraz fragmenty wyników wyszukiwania wybrane przez osoby wyszukujące, ogólnie lub wybierane częściej niż inne wyniki wyszukiwania.
W tych danych treningowych system może filtrować niektóre rodzaje słów i fraz z pytań, na przykład słowa stop.
Tak więc „jak gotować lasagne” może zostać przefiltrowane, aby wygenerować „jak gotować lasagne”.
Niektóre części mogą zostać usunięte z pytania, na przykład przymiotniki i wyrażenia przyimkowe są usuwane z zapytania.
Tak więc zapytanie takie jak „gdzie znajduje się przełyk w ludzkim ciele” może zostać przefiltrowane w celu wygenerowania „gdzie znajduje się przełyk”.
System może również przekształcać terminy w pytaniach i odpowiedziach na formy kanoniczne.
Oznacza to, że odmienione formy terminu „gotować”, np. „gotować”, „gotować”, „gotować” itd., mogą zostać przekształcone w formę kanoniczną „gotować”.
Typy pytań można zdefiniować z elementów pytań w danych uczących.
Typ pytania to grupa elementów pytania, które razem reprezentują cechy zapytania w celu uzyskania odpowiedzi.
Typ pytania (jak, kucharz) określa dwa elementy pytania: „jak” i „kucharz”.
Zapytanie pasuje do tego typu pytania, jeśli zawiera terminy pasujące do wszystkich elementów pytania w typie pytania.
Zapytanie „jak gotować pizzę” pasuje do typu pytania (jak, gotować), ponieważ zapytanie zawiera wszystkie elementy typu pytanie.
Patent mówi nam, że typy pytań mogą być uporządkowane lub nieuporządkowane. (Wydaje się to wskazywać, czy zapytanie jest zapytaniem typu „jak” i pokazuje konkretne kroki, które należy wykonać w określonej kolejności).
Patent wykorzystuje nawias klamrowy do określenia, czy zapytanie używa uporządkowanej struktury.
Zatem zapytanie będzie pasować do typu pytania {jak, gotować} wtedy i tylko wtedy, gdy termin „jak” występuje w zapytaniu przed terminem „kucharz”.
Para Pytanie i odpowiedź dopasowują się, sprawdzając, dla każdego pytania, które terminy pytania pasują do dowolnego zestawu typów elementów pytania.
Każdy typ elementu pytania reprezentuje charakterystykę n-gramu występującego w pytaniu.
Typowe typy elementów pytań
Patent zawiera kilka typowych typów elementów pytań, które obejmują:
Wystąpienie encji — typ wystąpienia encji pasuje do liczby gramów reprezentujących wystąpienia encji. Na przykład n-gram „Abraham Lincoln” pasuje do typu elementu pytania, ponieważ ten n-gram jest instancją encji. Gdy n-gram pasuje do tego typu elementu pytania, wynikowy typ pytania zawiera element pytania reprezentujący instancję encji n-gramu, np. (entity/Abraham_Lincoln). Inne n-gramy, które pasują do dowolnych aliasów tej samej jednostki, będą również pasować do tego elementu pytania, np. „Abe Lincoln”, „President Lincoln” i „Honest Abe”.
Klasa jednostki — typ klasy jednostki pasuje do n-gramów reprezentujących wystąpienia klas jednostek. Na przykład n-gramowa „lasagna” pasuje do tego typu elementu pytania, ponieważ jest to instancja klasy encji reprezentującej potrawy. Gdy n-gram pasuje do tego typu elementu pytania, wynikowy typ pytania zawiera element pytania reprezentujący klasę jednostki, np. (entity/dishs)
Klasa części mowy — typ klasy części mowy pasuje do n-gramów reprezentujących wystąpienia klas części mowy. Na przykład n-gramowe „run” pasuje do tego typu elementu pytania, ponieważ jest instancją klasy „czasowniki” części mowy. Gdy n-gram pasuje do tego typu elementu pytania, wynikowy typ pytania zawiera element pytania reprezentujący pasującą klasę części mowy, np. (część mowy/czasownik).
Słowo główne — typ słowa głównego pasuje do n-gramów, które system określa jako słowo główne pytania. Ogólnie rzecz biorąc, słowo źródłowe to termin, który nie zależy od innych terminów w pytaniu. Na przykład w „jak gotować lasagne” słowo „gotować” jest słowem głównym. W związku z tym słowo „kucharz” będzie pasować do tego typu elementu pytania, gdy w zapytaniu „jak gotować lasagne” występuje słowo „kucharz”. Wynikowy typ pytania zawiera pasujący n-gram, np. (kucharz).
N-gram — typ n-gramów pasuje do dowolnego n-grama. Jednak patent mówi nam, że aby uniknąć zbyt obszernego generowania typów pytań z danych treningowych, system może ograniczyć elementy n-gramowych pytań do predefiniowanego zestawu n-gramów.
System wyszukiwania może wstępnie zdefiniować n-gramowe elementy pytania, aby zawierały słowa i wyrażenia pytania, takie jak „jak”, „jak”, „kiedy”, „kiedy był”, „dlaczego”, „gdzie”, „co”. „kto” i „kogo”.
Może pojawić się więcej niż jeden z tych typów elementów pytania.
Tak więc n-gram „George Washington” pasuje zarówno do typu instancji encji, co skutkuje elementem pytania entity/George_Washington, jak i typem klasy encji, co skutkuje elementem pytania entity/us_presidents.
N-gramowy „George Washington” może również odpowiadać typowi n-gramowemu w zależności od tego, jak system ogranicza liczbę typów n-gramowych.
Ponadto termin „cook” pasuje do typu słowa głównego, typu instancji jednostki i typu klasy jednostki.
Przykład poszerzania pytań i typów odpowiedzi
Po tym, jak ten system zidentyfikuje pasujące typy elementów pytań, może następnie wygenerować typy pytań, generując różne kombinacje elementów pytań o różnej długości i na wielu poziomach ogólności.
Może to pozwolić na odkrycie typów pytań, które zapewniają dobrą równowagę między ogólnością a szczegółowością.
Na przykład „jak gotować lasagne”.
Pierwszy termin „jak” pasuje tylko do n-gramowego typu elementu.
Ale „kucharz” pasuje do typu elementu n-gramowego, typu elementu głównego słowa i typu elementu klasy encji dla klasy „hobby”.
W ten sposób system może generować następujące dwuelementowe typy pytań, wybierając różne kombinacje pasujących elementów pytania:
(jak gotować)
(jak, podmiot/hobby)
Termin „lasagna” pasuje do n-gramowego typu elementu i typu elementu klasy encji „dishes”. W ten sposób system może generować następujące trzyelementowe typy pytań, wybierając różne kombinacje pasujących elementów pytania:
(jak, gotować, lasagne)
(jak, kucharz, podmiot/dania)
(jak, podmiot/hobby, podmiot/dania)
(jak, podmiot/hobby, lasagne)
Wybór typów elementów odpowiedzi
Patent definiuje „typ odpowiedzi” jako grupę elementów odpowiedzi, które łącznie reprezentują cechy prawidłowej odpowiedzi na zapytanie w celu uzyskania odpowiedzi.
To podejście do zapytań w poszukiwaniu odpowiedzi może generować typy odpowiedzi, przetwarzając te odpowiedzi w danych uczących i decydując, dla każdej odpowiedzi, które terminy odpowiedzi pasują do dowolnego zestawu typów elementów odpowiedzi.
System wyszukiwania może generować typy odpowiedzi, znajdując elementy odpowiedzi, które pasują do typów elementów odpowiedzi.
Niektóre typowe typy elementów odpowiedzi i odpowiadające im elementy odpowiedzi obejmują:
Pomiar — typ miary może odpowiadać terminom reprezentującym pomiary numeryczne. Mogą to być:
- Daty, np. „1997”, „luty. 2, 1997” lub „19.02.1997”
- Wymiary fizyczne, np. „1,85 cm”, „12 cali”
- Czasy trwania, „10 minut”, „1 godzina”
- Wszelkie inne odpowiednie pomiary numeryczne
N-gram — typ n-gram odpowiada dowolnemu n-gramowi w odpowiedzi. Aby uniknąć zbyt obszernego generowania typów odpowiedzi, system może ograniczyć n-gramowe elementy odpowiedzi do n-gramów poniżej pewnej wartości n, co nie jest powszechne. Na przykład, system może ograniczyć n-gramowe elementy odpowiedzi do 1 gramów i 2 gramów z odwrotną oceną częstotliwości dokumentu, która spełnia próg.
Czasownik — typ czasownika pasuje do wszystkich terminów, które system określa jako czasowniki.
Przyimek — typy przyimków pasują do dowolnych terminów, które system określa jako przyimki.
Powiedziano nam, że system może zdefiniować typy elementów odpowiedzi dla dowolnej części mowy.
Ale w niektórych implementacjach system może używać tylko typów czasowników i przyimków.
Entity_instance — typ wystąpienia jednostki pasuje do n-gramów reprezentujących wystąpienia jednostki.
Typ odpowiedzi może zawierać element odpowiedzi reprezentujący instancję encji, np. (entity/Abraham_Lincoln).
N-gram w pobliżu encji — typ n-gram-bliski encji wykorzystuje zarówno n-gramowy typ elementu odpowiedzi, jak i typ elementu odpowiedzi wystąpienia encji, a także nakłada ograniczenie, że n-gram występuje w pobliżu wystąpienia encji w odpowiedzi. System może uznać, że n-gram jest blisko instancji encji, gdy n-gram:
- Występuje w odpowiedzi w ramach progowej liczby warunków instancji podmiotu
- Występuje w tym samym zdaniu co instancja encji
- Występuje w tym samym fragmencie, co instancja encji
Na przykład w odpowiedzi „Obama urodził się w Honolulu”, rzadko spotykany n-gram „Honolulu” występuje w obrębie pięciu wyrazów instancji bytu „Obama. Wynikowy typ odpowiedzi zawiera n-gram i instancję encji, np. (entity/Obama w pobliżu Honolulu)
Czasownik w pobliżu encji — typ czasownika w pobliżu encji wykorzystuje zarówno typ elementu odpowiedzi czasownika, jak i typ elementu odpowiedzi wystąpienia encji i podobnie nakłada ograniczenie, że czasownik występuje w pobliżu wystąpienia encji w odpowiedzi. Na przykład dla „Obama urodził się w Honolulu”, wynikowy typ odpowiedzi może zawierać element odpowiedzi (jednostka/Obama blisko urodzenia).
Przyimek w pobliżu jednostki — typ przyimek-bliski encji używa zarówno typu elementu odpowiedzi przyimka, jak i typu elementu odpowiedzi wystąpienia jednostki i podobnie nakłada ograniczenie, że przyimek występuje w pobliżu wystąpienia jednostki w odpowiedzi. Na przykład, dla „Obama urodził się w Honolulu”, wynikowy typ odpowiedzi może zawierać element odpowiedzi (jednostka/Obama w pobliżu)
Klasa czasownika — typ klasy czasownika pasuje do liczby gramów reprezentujących wystąpienia klas czasowników. Na przykład, system może zidentyfikować wszystkie następujące czasowniki jako instancje klasy czasownik/mieszanka: dodaj, połącz, połącz, połącz, połącz, krem, bezpiecznik, połącz, połącz, połącz, połącz, zmieszaj, wymieszaj, sieć, pula. Wynikowy typ odpowiedzi zawiera element pytania reprezentujący klasę czasownika, np. (czasownik/mieszanka).
Pomiń gramy — typ pomijania gramów określa bigramę, a także szereg terminów występujących pomiędzy terminami bigramu. Na przykład, jeśli wartość pominięcia wynosi 1, pominięty gram „gdzie * the” pasuje do wszystkich następujących n-gramów: „gdzie jest”, „gdzie było”, „gdzie jest” i „gdzie ma”. ten." Wynikowy typ odpowiedzi zawiera element odpowiedzi reprezentujący dużą ramkę i wartość pominięcia, np. (gdzie * the), gdzie pojedyncza gwiazdka reprezentuje wartość pominięcia wynoszącą 1.
System oblicza liczby dla par typu pytania/odpowiedzi.
Punktacja par pytań i odpowiedzi
Patent mówi nam, że system obliczy wynik dla każdej pary typ pytania/typ odpowiedzi.
Wynik ten opiera się na „predykcyjnej jakości określonej pary typu pytania/typu odpowiedzi, odzwierciedlonej w danych treningowych”.
Para typ pytania/typ odpowiedzi z dobrym wynikiem prawdopodobnie będzie miała typ odpowiedzi z jednym lub większą liczbą elementów odpowiedzi, które łącznie reprezentują charakterystykę prawidłowej odpowiedzi na zapytanie poszukujące odpowiedzi reprezentowane przez typ pytania.
System zazwyczaj czeka, aż wszystkie liczby zostaną obliczone przed obliczeniem wyniku dla określonej pary typu pytania/typu odpowiedzi.
W niektórych implementacjach system oblicza punktową informację wzajemną (PMI) dla każdej pary. Wynik PMI równy zero wskazuje, że pytanie i odpowiedź są niezależne i nie mają żadnego związku. Z drugiej strony wysoki wynik oznacza większe prawdopodobieństwo znalezienia typu odpowiedzi pasującego do odpowiedzi na pytania pasujące do odpowiedniego typu pytania.
System wybiera pary typu pytania/typ odpowiedzi z najlepszymi wynikami. Mogą one być uszeregowane, a pary mogą zostać wybrane z wynikiem spełniającym próg.
Typy odpowiedzi wybranych par prawdopodobnie będą reprezentować prawidłowe odpowiedzi na zapytania poszukujące odpowiedzi reprezentowane przez odpowiednie typy pytań.
Ten system zapytań wyszukujących odpowiedź może następnie indeksować wybrane pary typu pytania/typ odpowiedzi według typu pytania, tak aby system mógł wydajnie uzyskać wszystkie typy odpowiedzi związane z określonym typem pytania podczas oceniania online.
Może sortować indeks typów pytań według wyników, aby w czasie rzeczywistym podejmować decyzje dotyczące liczby typów odpowiedzi do wypróbowania.
Ten system może sortować każdy typ odpowiedzi skojarzony z typem pytania według wyniku, tak aby typy odpowiedzi o najwyższych wynikach mogły zostać przetworzone jako pierwsze w czasie zapytania.
Proces generowania odpowiedzi na zapytania w poszukiwaniu odpowiedzi
Patent ten przypomniał mi inny patent, o którym pisałem w przeszłości, dotyczący odpowiadania na pytania. Ten patent był tym, o którym pisałem w poście Czy Google używa schematu do pisania fragmentów odpowiedzi dla polecanych fragmentów?
Ten post mówi nam o tym, w jaki sposób Google może wybierać między dobrze napisanymi tekstowymi odpowiedziami na pytania, które mają również powiązane z nimi ustrukturyzowane dane, aby dostarczyć dodatkowych faktów do tych odpowiedzi, ale nie zawiera analizy, którą robi ten patent, patrząc na elementy odpowiedzi: poszukiwanie zapytań i elementów tych odpowiedzi.
Opis w tym patencie kończy się podaniem więcej szczegółów na temat tego, jak generowane są odpowiedzi, specjalnie dla zapytań poszukujących odpowiedzi.
Rozpoczyna się od otrzymania zapytania i uzyskuje dla niego wyniki wyszukiwania
Następnie określenie typu pytania pasującego do zapytania.
Jeśli zapytanie nie pasuje do żadnego z wygenerowanych typów pytań, system może określić, że zapytanie nie jest zapytaniem poszukującym odpowiedzi.
Jeśli tak, odpowiada bez pola odpowiedzi, wyświetlając stronę wyników wyszukiwania bez odpowiedzi.
Typ zapytania szukającego odpowiedzi jest określony przez elementy odpowiadającego typu pytania. System wyszukiwania może następnie zdecydować, które fragmenty tekstu mogą być dobrą odpowiedzią na zapytanie w celu uzyskania odpowiedzi.
W tym celu może uzyskać dostęp do indeksu typu pytania, który kojarzy każdy pasujący typ pytania z jednym lub kilkoma typami odpowiedzi.
System wyszukiwania może obliczać wyniki dla odpowiedzi zgodnie z typami odpowiedzi uzyskanych z wyszukiwania.
System wyszukiwania może określić, czy wynik najwyżej punktowanej odpowiedzi spełnia próg. Jeśli wynik nie spełnia progu, system może zdecydować, że odpowiedź nie jest dobrą odpowiedzią na zapytanie i może odmówić wyświetlenia tej odpowiedzi na stronie wyników wyszukiwania.
Jeśli wynik spełnia próg, system wyszukiwania może uwzględnić na stronie wyników wyszukiwania odpowiedź z najwyższym wynikiem i podać stronę wyników wyszukiwania w odpowiedzi na zapytanie.
Ostateczne dania na wynos na pytania dotyczące szukania odpowiedzi
Ten patent zapewnia pewne dodatkowe aspekty działania procesu opisanego w tym patencie i stwierdza, że może on również obejmować inne kroki, które niekoniecznie są objęte.
Wskazałem na co najmniej jeden inny patent (ten dotyczący zapytań typu how-to), który opisuje więcej aspektów wyboru odpowiedzi, które również nie są szczegółowo opisane w tym patencie.
Dlatego warto przyjrzeć się innym patentom, które obejmują dodatkowe aspekty odpowiadania na zapytania, które koncentrują się w szczególności na poszukiwaniu odpowiedzi, takie jak te, do których połączyłem się powyżej, dotyczące odpowiedzi w języku naturalnym i odpowiadania na pytania za pomocą fragmentów odpowiedzi.
Napisałem również o tym, jak Google może generować wykresy wiedzy w odpowiedzi na zapytania, i wziąć pod uwagę wyniki powiązań między jednostkami oraz klasyfikacjami i atrybutami tych jednostek, aby odpowiedzieć na pytania w poście Odpowiadanie na pytania przy użyciu wykresów wiedzy.
Nie mamy jasnych wskazówek, w jaki sposób podejścia w różnych patentach, których dotyczą te posty, mogą do siebie pasować, ale pamiętaj, że istnieją i powinny być brane pod uwagę przy określaniu, jak wszystko pasuje do siebie, kiedy Google może odpowiadać na zapytania w celu uzyskania odpowiedzi pomocny.
