Google przy użyciu wektorów reprezentacji witryny do klasyfikowania według wiedzy i autorytetu
Opublikowany: 2020-02-21Dodano (2020-02-23) Pytania i odpowiedzi: Kilka pytań na temat tego patentu Website Representation Vectors i kilka rzeczy na jego temat, którymi chciałem się zająć.
1. Aktualizacja „Medic” – którą Barry Schwartz wymienił w sierpniu 2018 r., ponieważ wydawała się wpływać na witryny medyczne, wpłynęła również na inne rodzaje witryn. W tym zgłoszeniu patentowym, złożonym w sierpniu 2018 r., zauważono, że obejmuje on szereg branż, w tym na przykład witryny dotyczące zdrowia i sztucznej inteligencji. Wykorzystuje przykład autorów witryn o zdrowiu, którzy są lekarzami jako ekspertami, studentami medycyny jako praktykantami, a laikami jako laikami, dlatego poprosiłem grafika Go Fish Digital o obraz mastheadu do tego postu, przedstawiający po jednym z nich. Ten patent obejmuje różne branże i różne poziomy wiedzy. Wybrałem ilustrację, która odzwierciedla „medyczny” aspekt procesu z patentu, ponieważ uważałem, że jest to dokładne odzwierciedlenie tego, co obejmuje patent
2. Wyniki jakości — patent wyjaśnia, w jaki sposób może dalej klasyfikować witryny internetowe na podstawie tego, czy osiągają progi oparte na wynikach jakości. Patent nie definiuje konkretnie „wyniku jakości”, ale Google ma kilka patentów dotyczących wyników jakości witryn internetowych. Wspaniała strona od Google o tym, co zawiera witryna wysokiej jakości, to post na blogu Google autorstwa Amita Singhala: Więcej wskazówek na temat tworzenia witryn wysokiej jakości.
3. Rankingi wyników – Jak witryny mogą się pozycjonować w ramach procesu z tego patentu? Zapytania z określonych domen wiedzy (obejmujące określone tematy) mogą zwracać wyniki przy użyciu sklasyfikowanych witryn jako pochodzących z tej samej domeny wiedzy. Na przykład na zapytanie medyczne, takie jak objawy mononukleozy z domeny wiedzy medycznej, najlepiej odpowiedzieć witryna sklasyfikowana jako pochodząca z domeny wiedzy medycznej. Patent mówi nam również, że jednym z celów tego patentu jest ograniczenie możliwych stron wyników w oparciu o klasyfikacje obejmujące branżę i wiedzę fachową, które spełniają wystarczające progi jakości. Uporządkuj te strony na podstawie oceny trafności i autorytetu:
0024] Wyniki wyszukiwania są uszeregowane w oparciu o wyniki związane z zasobami zidentyfikowanymi przez wyniki wyszukiwania, takie jak wyniki wyszukiwania informacji („IR”) i opcjonalnie oddzielny ranking każdego zasobu w stosunku do innych zasobów (np. ocena autorytetu) . Zgodnie z zamówieniem wyniki wyszukiwania są uporządkowane według tych wyników i dostarczane do urządzenia użytkownika zgodnie z zamówieniem.
Klasyfikacja stron internetowych
Google informuje nas, że może używać wektorów reprezentacji witryny do klasyfikowania witryn na podstawie funkcji znalezionych w tych witrynach.
Ten post dotyczy nowego wniosku patentowego Google złożonego w sierpniu 2018 r. i opublikowanego w Światowej Organizacji Własności Intelektualnej (WIPO) w zeszłym tygodniu.
Wniosek patentowy wykorzystuje sieci neuronowe do zrozumienia wzorców i funkcji witryn internetowych w celu sklasyfikowania tych witryn.
Ten system klasyfikacji witryn internetowych odnosi się do „złożonej reprezentacji, np. wektora, do klasyfikacji witryny internetowej w ramach określonej domeny wiedzy”.
Tymi domenami wiedzy mogą być takie tematy, jak zdrowie, finanse i inne. Witryny sklasyfikowane w określonych domenach wiedzy mogą mieć przewagę w używaniu tej klasyfikacji do zwracania wyników wyszukiwania w odpowiedzi na zapytanie wyszukiwania.
Te klasyfikacje stron internetowych mogą być bardziej zróżnicowane niż reprezentowanie kategorii stron internetowych w domenach wiedzy. Patent znacznie rozbija kategorie:
Na przykład klasyfikacje witryn internetowych mogą obejmować pierwszą kategorię witryn tworzonych przez ekspertów z dziedziny wiedzy, np. lekarzy, drugą kategorię witryn tworzonych przez praktykantów z dziedziny wiedzy, np. studentów medycyny, oraz trzecią kategorię witryn tworzonych przez laików w dziedzinie wiedzy.
Przypominają mi się dyskusje w branży SEO na temat wytycznych Google Quality Raters i zawarte w nich odniesienia do EAT lub wiedzy specjalistycznej, autorytetu i wiarygodności. Wytyczne wskazują witryny zdrowotne o różnych poziomach EAT, podobnie jak klasyfikacje z tego nowego zgłoszenia patentowego Google dotyczącego wektorów reprezentacji witryn internetowych:
ekspertyza lub akredytacja. Pisz lub publikuj porady medyczne lub informacje o wysokiej wartości EAT w profesjonalnym stylu i powinny być regularnie redagowane, przeglądane i aktualizowane.
Wytyczne mówią nam, że istnieją witryny tworzone przez osoby, które nie mają tak dużej wiedzy na tematy:
Możliwe jest nawet codzienne doświadczenie w tematach YMYL. Na przykład istnieją fora i strony pomocy dla osób z określonymi chorobami. Dzielenie się osobistym doświadczeniem jest formą codziennej ekspertyzy. Rozważ ten przykład.
Tutaj uczestnicy forum opowiadają, jak długo ich bliscy żyli z rakiem wątroby. To jest przykład udostępniania
osobiste doświadczenia (w których są ekspertami), a nie porady medyczne. Konkretne informacje i porady medyczne (raczej
niż opisy doświadczeń życiowych) powinny pochodzić od lekarzy lub innych pracowników służby zdrowia.
Klasyfikacje obejmują witryny na poziomie eksperckim w dziedzinie zdrowia, witryny na poziomie praktykantów oraz witryny na poziomie laików.
Te klasyfikacje pochodzą z różnych poziomów wiedzy. Ten patent mówi nam, że ranking stron również opiera się na autorytecie, ale nie mówi nic o wiarygodności, więc nie jest to ranking stron całkowicie oparty na EAT. Proces ten obejmuje dwa aspekty EAT, dzięki czemu może spełnić część celu wytycznych Quality Raters Guidelines, umożliwiając ewaluatorom posiadanie witryn o dobrej pozycji, wykazujących się wysokim poziomem autorytetu i wiedzy.
Ponadto, jeśli ten proces ogranicza liczbę witryn, z których Google musi zwracać wyniki wyszukiwania, w oparciu o domenę wiedzy, w której mogą się znajdować, oznacza to, że Google przeszukuje mniej witryn w celu zwrócenia wyników niż cały indeks sieci Google. Przyjrzyjmy się bliżej procesowi tego zgłoszenia patentowego.
Klasyfikuje wiele witryn internetowych do określonych domen wiedzy i próbuje znaleźć różne poziomy witryn w tych konkretnych domenach wiedzy:
- Otrzymywanie reprezentacji witryn i wyników jakości, które reprezentują wskaźniki jakości witryn w porównaniu z innymi witrynami
- Klasyfikowanie jako pierwsze witryny, każda witryna z wynikiem jakości poniżej pierwszego progu, co najmniej jedna witryna z wynikiem jakości poniżej pierwszego progu
- Klasyfikowanie jako drugie witryny, każda z witryn z wynikiem jakości powyżej drugiego progu wyższa niż pierwszy próg, co najmniej jedna z wielu witryn z wynikiem jakości wyższym niż pierwszy próg
- Generowanie pierwszej złożonej reprezentacji stron internetowych sklasyfikowanych jako pierwsze strony internetowe
- Wygeneruj drugą złożoną reprezentację witryn sklasyfikowanych jako drugie witryny
- Odbierz reprezentację innej strony internetowej
- Określanie pierwszej miary różnicy między pierwszą reprezentacją złożoną a reprezentacją
- Wyznaczanie drugiej miary różnicy między drugą reprezentacją złożoną a reprezentacją
- Na podstawie pierwszej miary różnicy i drugiej miary różnicy sklasyfikuj drugą witrynę internetową jako jedną z pierwszych witryn internetowych, drugą witrynę internetową lub jako trzecie witryny internetowe, które nie są sklasyfikowane jako pierwsze ani drugie witryny internetowe

Zapytania żądają odpowiedzi z określonych domen wiedzy
Zgłoszenie patentowe informuje nas, że jego proces obejmuje użycie terminów z zapytania, aby zrozumieć, że zapytanie wymaga odpowiadających danych z określonej domeny wiedzy.
Może szukać odpowiedzi z tej konkretnej domeny wiedzy. Proces obejmuje:
- Generowanie z miarodajnych źródeł danych wstępnie przetworzonych odpowiedzi na przyszłe zapytania
- Otrzymanie, po wygenerowaniu wstępnie przetworzonych odpowiedzi, zapytania określonego lub pokazującego konkretną domenę wiedzy,
- W odpowiedzi odpowiadając na zapytanie jedną z wstępnie przetworzonych odpowiedzi
Zalety tego podejścia do reprezentacji witryny internetowej
System Wyszukiwarki może wybierać, przeszukiwać lub jedno i drugie, tylko dla stron internetowych o określonej klasyfikacji, zmniejszając zasoby komputera niezbędne do znalezienia wyników wyszukiwania, np. nie wybierając, przeszukując lub jedno i drugie, dowolnej strony internetowej bez względu na klasyfikację. To może:

- Zmniejsz ilość miejsca potrzebnego do przechowywania danych dla potencjalnych wyników wyszukiwania, np. może potrzebować tylko przechowywania danych dla witryn o określonej klasyfikacji
- Zmniejszenie wielu stron analizowanych przez system wyszukiwania, np. ograniczenie wyszukiwania do stron o określonej klasyfikacji
- Zmniejsz przepustowość sieci używaną do dostarczania wyników wyszukiwania żądającemu urządzeniu
- Rozwiąż potencjalne problemy z wcześniejszymi systemami, takie jak większe wykorzystanie przepustowości, pamięci, cykli procesora, zasilania lub kombinacji dwóch lub więcej z nich
- Ulepsz strony wyników wyszukiwania generowane przez system wyszukiwania poprzez uwzględnienie w generowanych stronach wyników wyszukiwania tylko witryn o określonej klasyfikacji, np. klasyfikacji jakościowej
- Wykorzystaj cechy wyuczone z istniejących witryn, aby klasyfikować wcześniej niewidziane witryny bez konieczności wprowadzania danych przez użytkownika w celu klasyfikacji
- Wykryj witryny, które są bardziej prawdopodobne, że odpowiadają na zapytania dotyczące domeny wiedzy, np. są bardziej autorytatywne dla domeny wiedzy, klasyfikując przed niewidocznymi witrynami
- Użyj złożonej reprezentacji opartej na istniejących klasyfikacjach witryn internetowych, co oznacza, że cechy używane przez klasyfikację nie są ograniczone przez cechy dostrzegalne przez człowieka i mogą być dowolną cechą, której można się nauczyć poprzez analizę witryny
Pamiętaj, że pomaga to zidentyfikować witryny, które są autorytatywne dla różnych domen wiedzy.
To zgłoszenie patentowe dotyczące wektora jest dostępne pod adresem:
Wektor reprezentacji witryny do generowania wyników wyszukiwania i klasyfikowania witryny
Numer publikacji: WO2020033805
Wnioskodawcy: GOOGLE LLC
Wynalazcy: Yevgen Tsykynovskyy
Numer publikacji WO/2020/033805
Złożono: 10 sierpnia 2018 r.
Data publikacji 13 lutego 2020 r.
Abstrakcyjny:
Metody, systemy i urządzenia, w tym programy komputerowe zakodowane na komputerowych nośnikach pamięci, wykorzystują reprezentacje witryn internetowych do generowania, przechowywania lub obu tych wyników wyszukiwania. Jeden ze sposobów obejmuje odbieranie danych reprezentujących każdą witrynę internetową z pierwszych wielu witryn internetowych powiązanych z pierwszą domeną wiedzy z wielu domen wiedzy i mających pierwszą klasyfikację; otrzymywanie danych reprezentujących każdą witrynę internetową w drugiej liczbie witryn internetowych powiązanych z pierwszą domeną wiedzy i mających drugą klasyfikację; generowanie pierwszej złożonej reprezentacji pierwszych wielu stron internetowych; generowanie drugiej złożonej reprezentacji drugiej wielu stron internetowych; otrzymanie reprezentacji strony trzeciej; określenie pierwszej miary różnicy między pierwszą reprezentacją złożoną a reprezentacją; określenie drugiej miary różnicy między drugą reprezentacją złożoną a reprezentacją; oraz na podstawie pierwszej miary różnicy i drugiej miary różnicy, klasyfikując trzecią witrynę internetową.
Dane z internetowego systemu klasyfikacji
Wyszukiwarka może wykorzystywać dane z tego systemu klasyfikacji wektorów reprezentacji witryny do zwracania wyników wyszukiwania.
Ten system klasyfikacji może wykorzystywać reprezentacje dla każdej z wielu stron AN i wykorzystywać te reprezentacje do określenia klasyfikacji dla każdej z wielu stron AN.

Wyszukiwarka decyduje o zastosowaniu klasyfikacji dla zapytania wyszukiwania, aby wybrać kategorię stron internetowych o tej samej lub podobnej klasyfikacji.
Może zwracać wyniki wyszukiwania z tej kategorii witryn.
Klasyfikacje witryn zależą od funkcji, które zawierają witryny.
Klasyfikacja stron internetowych w patencie na wektory reprezentacji stron internetowych
To była ta część opisu patentu, która najbardziej mnie interesowała.
Zaczyna się od poinformowania nas, że system klasyfikacji wektorów reprezentacji tej witryny może używać dowolnej odpowiedniej metody do generowania klasyfikacji, co zapewnia Google dużą elastyczność.
Ale potem idzie bardziej szczegółowo, mówiąc nam, że klasyfikacja zależy od treści z witryn internetowych, aby wygenerować reprezentacje tych witryn.
Treść ta może obejmować:
- Tekst ze strony internetowej
- Obrazy na stronie
- Inne treści witryny, np. linki
- Lub połączenie dwóch lub więcej z nich
Patent następnie zawiera szczegółowe informacje na temat zaangażowania sieci neuronowej:
System klasyfikacji witryn może wykorzystywać mapowanie, które mapuje zawartość witryny dla witryny A na przestrzeń wektorową reprezentującą reprezentację witryny A.
Na przykład system klasyfikacji witryn internetowych może wykorzystywać sieć neuronową reprezentującą odwzorowanie, aby utworzyć wektor cech A reprezentujący witrynę A, wykorzystując zawartość witryny A jako dane wejściowe do sieci neuronowej.
Etykiety używane w wektorach reprezentacji witryn
Podstawa klasyfikacji witryn może wymagać użycia etykiet. Etykiety:
- Mogą to być znaki alfanumeryczne, numeryczne lub alfabetyczne, symbole albo kombinacja dwóch lub więcej z nich
- Może określić rodzaj podmiotu, na którym opublikowano odpowiednią witrynę, np. firmę non-profit lub nastawioną na zysk
- Pokazuję branżę opisaną na stronie, np. o sztucznej inteligencji lub edukacji
- Może określać typ osoby, która jest autorem witryny, na przykład lekarza, studenta medycyny lub laika
- Mogą to być również wyniki reprezentujące klasyfikację strony internetowej
Wyniki dla klasyfikacji mogą być użyte:
- Aby spełnić różne progi, aby spełnić kategorie
- Może być specyficzny dla określonej domeny wiedzy
- Aby sklasyfikować witrynę tak, aby obejmowała więcej niż jedną domenę wiedzy
- Aby wybrać witryny odpowiadające na wiele zapytań dla określonych domen wiedzy
- Z miarodajnością danej strony internetowej w określonej dziedzinie wiedzy
- Lub obie
Dane wejściowe używane do klasyfikowania witryn mogą dotyczyć takich rzeczy, jak:
- Stanowisko poszczególnych słów względem siebie, np. słowo „sztuczny” jest ogólnie blisko słowa „inteligencja” lub obok niego.
- Poszczególne frazy zawarte w serwisie
- Dla każdej z klasyfikacji AB, miara różnicy lub miara podobieństwa, która reprezentuje podobieństwo między odpowiednią klasyfikacją a inną witryną
- Najbardziej podobna klasyfikacja AB
- Klasyfikacja AB z najwyższą miarą podobieństwa lub z najkrótszą odległością między innym wektorem cech a odpowiednim przeciętnym wektorem cech AB, żeby wymienić kilka przykładów
- Stosunek dwóch miar podobieństwa do wyboru klasyfikacji dla drugiej strony internetowej
Ta witryna internetowa reprezentuje patent vectors, który informuje nas o kilku innych sposobach, w jakie dane mogą przechodzić podczas procesu klasyfikacji.
Wyniki Jakości wskazujące na klasyfikację witryny mogą być miarą:
- Autorytatywność
- Reakcja na konkretną dziedzinę wiedzy
- Kolejna właściwość serwisu
- Lub połączenie dwóch lub więcej z nich
Wnioski z tej metody klasyfikacji wektorów reprezentacji witryny internetowej
Ostatnia aktualizacja 23 lutego 2020 r.
