Zaktualizowano rankingi wyszukiwania Model patentu na podstawie dużych zbiorów danych
Opublikowany: 2018-08-22Model rankingów wyszukiwania i duże zbiory danych
Zgodnie z jednym aspektem zgodnym z zasadami wynalazku, przedstawiono sposób klasyfikacji dokumentów. Metoda może obejmować tworzenie modelu rankingu wyszukiwania, który przewiduje prawdopodobieństwo wybrania dokumentu i trenowanie modelu rankingu przy użyciu zestawu danych zawierającego dziesiątki milionów wystąpień.
W 2011 roku pisałem o patencie przyznanym Google w 2007 roku, dotyczącym budowania modelu rankingu wyszukiwania, który wykorzystuje bardzo dużą ilość danych, zapytań, dokumentów w sieci i wyszukiwarek. Post, w którym o tym pisałem, to Google i Large Scale Data Models Like Panda, a wersja patentu, o którym wtedy pisałem, to Dokumenty rankingowe oparte na dużych zbiorach danych.
Patent modelu Search Rankings został zaktualizowany poprzez zastosowanie patentu kontynuacyjnego po raz trzeci. Dwa wcześniejsze patenty na kontynuację nie zostały przyznane, ale ten ostatni został i można go znaleźć pod linkiem poniżej tego akapitu. Opis wydaje się być taki sam, jak w oryginalnej wersji, która została zgłoszona w 2003 roku. Zastrzeżenia zostały obszernie przepisane i warto się im przyjrzeć, ponieważ nowe pokazują, ile wysiłku włożono w ten patent. Najnowszą wersję patentu na rankingi wyszukiwania można znaleźć pod adresem:
Ranking dokumentów na podstawie dużych zbiorów danych
Wynalazcy: Jeremy Bem, Georges R. Harik, Joshua L. Levenberg, Noam M. Shazeer i Simon Tong
Pełnomocnik: Google LLC
Patent USA: 10 055 461
Przyznano: 21 sierpnia 2018 r.
Złożono: 31 lipca 2015 r.
Abstrakcyjny
System klasyfikuje dokumenty na podstawie, przynajmniej częściowo, modelu rankingu. Model rankingu można wygenerować w celu przewidzenia prawdopodobieństwa wyboru dokumentu. System może odbierać zapytanie wyszukiwania i identyfikować dokumenty związane z zapytaniem. System może następnie uszeregować dokumenty na podstawie, przynajmniej częściowo, modelu rankingu i wyników wyszukiwania formularza dla zapytania wyszukiwania z uszeregowanych dokumentów.
Zaktualizowane roszczenia w patencie modelowym rankingów wyszukiwania
Warto porównać twierdzenia z najwcześniejszej wersji tego patentu na ranking wyszukiwania z najnowszym, aby zorientować się, jak bardzo się zmienił. Przeczytanie posta, który zrobiłem o pierwszej wersji wcześniej, może być również pomocne w zrozumieniu, co obejmuje. Dołączam tutaj kopie pierwszego roszczenia z każdego z nich, ponieważ przedstawiają one dość kontrast w odniesieniu do tego, do czego odnoszą się patenty.
W pierwotnej wersji patentu pierwsze zastrzeżenie jest znacznie krótsze iw ogóle nie jest tak szczegółowe. Mówi nam o:
1. Sposób realizowany komputerowo, obejmujący: tworzenie modelu rankingu, który przewiduje prawdopodobieństwo wyboru dokumentu poprzez: przechowywanie informacji związanych z wieloma wcześniejszymi wyszukiwaniami, określanie prawdopodobieństwa wcześniejszego wyboru na podstawie, przynajmniej w części, informacje związane z wcześniejszymi wyszukiwaniami i generowanie modelu rankingu opartego, przynajmniej częściowo, na prawdopodobieństwie wcześniejszego wyboru; uczenie modelu rankingu przy użyciu zestawu danych zawierającego około dziesiątki milionów wystąpień; identyfikowanie dokumentów związanych z zapytaniem wyszukiwania; punktacja dokumentów na podstawie, przynajmniej w części, modelu rankingowego; tworzenie wyników wyszukiwania dla zapytania wyszukiwania z ocenionych dokumentów; i wyprowadzanie wyników wyszukiwania.
Porównaj to twierdzenie z tym z najnowszej wersji patentu na model rankingu wyszukiwania, który jest znacznie bardziej szczegółowy:
Twierdzi się, że:
1. Zaimplementowany komputerowo sposób obejmujący: odbieranie przez rozproszony system wyszukiwania zbioru danych uczących obejmującego wiele instancji szkoleniowych, z których każdy identyfikuje odpowiedni pierwszy dokument wybrany przez konkretnego użytkownika, gdy pierwszy dokument został zidentyfikowany w dostarczonych wynikach wyszukiwania przez system wyszukiwania do konkretnego użytkownika w odpowiedzi na konkretne zapytanie wyszukiwane przez danego użytkownika; podział zbioru danych szkoleniowych na wiele urządzeń obliczeniowych rozproszonego systemu wyszukiwania; generowanie, przez system wyszukiwania rozproszonego, modelu rankingu, który daje prawdopodobieństwo, że określony użytkownik wybierze określony dokument, gdy zostanie zidentyfikowany przez jeden lub więcej wyników wyszukiwania dostarczonych w odpowiedzi na określone zapytanie wyszukiwania przesłane przez danego użytkownika, w tym przetwarzanie, przez każde urządzenie obliczeniowe z wielu urządzeń obliczeniowych, instancje szkoleniowe przypisane do urządzenia obliczeniowego, w tym: wybieranie przez urządzenie obliczeniowe warunku kandydującego, przy czym warunek kandydujący określa wartości dla co najmniej jednej cechy użytkownika, co najmniej jednej cechy zapytania, oraz jedną lub więcej funkcji dokumentu, wysyłanie przez urządzenie obliczeniowe do siebie nawzajem urządzeń obliczeniowych z wielu urządzeń obliczeniowych żądania obliczenia statystyk lokalnych dla stanu kandydata, odbieranie przez urządzenie obliczeniowe od każdego urządzenia obliczeniowego jednego lub więcej innych urządzeń obliczeniowych, odpowiednie obliczone statystyki dla warunku kandydata obliczone przez inne komputery de imadło przy użyciu wartości lokalnych instancji trenujących przypisanych do drugiego urządzenia obliczeniowego, obliczając przez urządzenie obliczeniowe wagę dla stanu kandydata zgodnie z obliczonymi statystykami otrzymanymi z jednego lub większej liczby innych urządzeń obliczeniowych dla stanu kandydata; ustalenie przez urządzenie obliczeniowe, że nowa reguła zawierająca warunek kandydata i obliczoną wagę powinna zostać dodana do modelu rankingowego, a w odpowiedzi dodanie nowej reguły do modelu rankingowego i zapewnienie sobie nawzajem przez urządzenie obliczeniowe urządzenie liczące z wielu urządzeń obliczeniowych, wskazanie, że nowa reguła zawierająca warunek kandydata i obliczoną wagę powinna zostać dodana do modelu rankingu; otrzymywanie zapytania wyszukiwania przesłanego przez pierwszego użytkownika; uzyskanie wielu wyników wyszukiwania, które spełniają zapytanie wyszukiwania, przy czym każdy wynik wyszukiwania identyfikuje odpowiedni dokument z wielu dokumentów; określenie jednej lub więcej cech pierwszego użytkownika oraz jednej lub więcej cech zapytania wyszukiwania przesłanego przez pierwszego użytkownika; wykorzystanie jednej lub więcej funkcji pierwszego użytkownika i jednej lub więcej funkcji zapytania wyszukiwania jako danych wejściowych do modelu rankingu w celu obliczenia, dla każdego dokumentu zidentyfikowanego przez wyniki wyszukiwania, odpowiedniego prawdopodobieństwa, że pierwszy użytkownik wybierze dokument, gdy dostarczone w odpowiedzi na zapytanie wyszukiwania; oraz uszeregowanie wielu wyników wyszukiwania na podstawie odpowiedniego obliczonego prawdopodobieństwa dla każdego dokumentu, przy czym obliczone prawdopodobieństwo dla każdego dokumentu jest prawdopodobieństwem, że pierwszy użytkownik wybierze dokument, gdy zostanie dostarczony w odpowiedzi na zapytanie wyszukiwania.
Twierdzenie mówi nam, że model rankingu wyszukiwania obejmuje funkcje dotyczące użytkowników, zapytań i uporządkowanych dokumentów. To tylko niektóre z cech zidentyfikowanych w nowych oświadczeniach:
- Język pierwszego użytkownika
- Jedno lub więcej wcześniejszych zapytań wystawionych przez pierwszego użytkownika
- Ile razy pierwszy użytkownik uzyskał dostęp do określonego dokumentu
- Język zapytania
- Co najmniej jeden termin zapytania
- Jeden lub więcej drugich dokumentów, których dany użytkownik nie wybrał
- Dane reprezentujące pozycję wybranego pierwszego dokumentu w kolejności wyników wyszukiwania podanych w odpowiedzi na dane zapytanie
- Liczba dokumentów znajdujących się powyżej wybranego pierwszego dokumentu w wynikach wyszukiwania dostarczonych danemu użytkownikowi w odpowiedzi na określone zapytanie
- Lokalizacja pierwszego użytkownika
W nowszej wersji patentu jest kilka innych zastrzeżeń, które stały się znacznie dłuższe i dlatego warto je przejrzeć i zwrócić na nie uwagę.
Pierwsza wersja patentu mówi nam, że zwraca uwagę na wiele różnych przypadków danych podzielonych na trójki, dotyczących tego, jak różnią się wyszukiwarka, zapytanie i dokument. Jak powiedziałem w moim pierwszym poście o oryginalnym patencie:
W pierwszym patencie Google budowany model analizował kombinację danych od użytkowników, użytych przez nich zapytań i dokumentów, które mogli lub nie wybrali. Każda z tych kombinacji jest określana jako „instancja. Instancja to „trójka” danych: (u, q, d), gdzie u to informacje o użytkowniku, q to dane zapytania od użytkownika, a d to informacje o dokumencie dotyczące stron zwróconych z danych zapytania.
Wynos o aktualizacji patentu modelu rankingów wyszukiwania
Google niedawno przeszło dużą aktualizację rdzenia, opisaną w Google Confirms Broad Core Algorithm Update: The Facts & Advice. Wiemy, że Google od dłuższego czasu aktualizuje swoje podstawowe algorytmy wyszukiwania, prawdopodobnie 2 razy dziennie. Nie wiemy, kiedy mogły zostać zastosowane aktualizacje, które znalazły odzwierciedlenie w nowej wersji tego patentu na model rankingu wyszukiwania, ale mogło to być spowodowane tym, że jako patent kontynuacyjny idealnie odzwierciedlałby zmiany w procesie związanym z patentem, który mógł zostać wprowadzony do algorytmu z biegiem czasu. Gdyby Google używało tego podejścia do pozycjonowania stron, można by to uznać za część podstawowego algorytmu wyszukiwania. Ten patent uwzględnia bardzo dużą ilość danych obejmujących zapytania użytkowników i dokumenty w celu określenia rankingów wyszukiwania.

