Treści generowane przez użytkowników i uczenie maszynowe w Google
Opublikowany: 2021-02-10Czy Google to nowy dom dla uczenia maszynowego w sieci?
Niedawno pisałem o patencie Google opisującym uczenie maszynowe w celu identyfikacji opinii w artykułach z wiadomościami w poście Opinia News Found By Machine Learning w Google
W Google rośnie wykorzystanie uczenia maszynowego. W ramach tego patentu Google może wykorzystywać uczenie maszynowe do identyfikowania innych rodzajów treści, nie tylko opinii. Ten nowy patent mówi nam o identyfikacji treści generowanych przez użytkowników za pomocą uczenia maszynowego.
Powiedziano nam wyraźnie, że patent dotyczy „wykorzystania uczenia maszynowego do przewidywania treści generowanych przez użytkowników”.
Po co szukać treści generowanych przez użytkowników w sieci? Patent wskazuje, że:
Treści generowane przez użytkowników mogą służyć do pozyskiwania informacji o różnych podmiotach.
Takie treści tworzone przez użytkowników można uzyskać, na przykład, angażując wielu użytkowników w doświadczenie związane z wkładem.
Uczenie maszynowe może pomóc nam zrozumieć doświadczenia związane z wkładem, takie jak system pytań i odpowiedzi, w którym użytkownikom są dostarczane pytania i/lub inne podpowiedzi dotyczące różnych podmiotów. Użytkownicy są następnie instruowani, aby odpowiedzieć na pytania i/lub podpowiedzi.
Te odpowiedzi użytkownika mogą służyć do wyciągania wniosków związanych z atrybutami różnych jednostek. (Podoba mi się tutaj wzmianka o atrybutach w patencie.)
Te doświadczenia związane z wkładem mogą wymagać znacznej liczby odpowiedzi użytkownika, zanim będzie można dokonać dokładnego wnioskowania dotyczącego jednostki.
Dlatego wielu użytkowników może być zobowiązanych do stwierdzenia, że dana jednostka posiada atrybut, aby można było dokonać dokładnego wnioskowania o posiadaniu atrybutu przez jednostkę.
W jaki sposób uczenie maszynowe oraz te pytania i odpowiedzi pomagają nam uczyć się o podmiotach?
Sposób z patentu obejmuje odbieranie, przez jedno lub więcej urządzeń obliczeniowych, danych pierwszej jednostki powiązanych z jednostką.
Te pierwsze dane encji mogą zawierać dane określone przez użytkownika powiązane z atrybutem encji (atrybuty encji mogą zawierać daty i inne wartości z nimi powiązane).
Sposób obejmuje następnie wprowadzanie, przez jedno lub więcej urządzeń obliczeniowych, danych pierwszej jednostki do modelu przewidywania treści uczenia maszynowego.
Opatentowany sposób obejmuje ponadto odbieranie jako dane wyjściowe modelu predykcji treści uczenia maszynowego, przez jedno lub większą liczbę urządzeń obliczeniowych, wnioskowanych danych jednostki zawierających wnioskowane dane opisujące atrybut jednostki.
Patent ten można znaleźć w USPTO pod adresem:
Wykorzystanie uczenia maszynowego do przewidywania treści generowanych przez użytkowników
Wynalazcy: Arun Mathew, Kaleigh Smith, Per Anderson i Ian Langmore
Pełnomocnik: Google LLC
Patent USA: 10 878 339
Przyznano: 29 grudnia 2020 r.
Złożono: 27 stycznia 2017 r.
Abstrakcyjny
Zapewniono systemy i metody wykorzystania uczenia maszynowego do przewidywania treści generowanych przez użytkowników.
Na przykład, można odbierać dane pierwszej jednostki powiązane z jednostką.
Pierwsze dane encji mogą zawierać dane określone przez użytkownika powiązane z atrybutem encji.
Pierwsze dane encji można wprowadzić do modelu przewidywania treści uczenia maszynowego.Wywnioskowane dane jednostki mogą być odbierane jako dane wyjściowe modelu przewidywania treści uczenia maszynowego.
Wywnioskowane dane encji mogą zawierać wywnioskowane dane opisujące atrybut encji.
Jeden z przykładów tego patentu mówi nam o lepszym wykorzystaniu uczenia maszynowego do lepszego zrozumienia treści generowanych przez użytkowników na temat jednego lub więcej podmiotów.
Proces może określać różne atrybuty dotyczące jednego lub więcej podmiotów.
W ten sposób można otrzymać określone przez użytkownika dane encji dotyczące atrybutu encji.
Te dane encji mogą obejmować odpowiedzi użytkownika na zadanie zbierania informacji dostarczone jednemu lub większej liczbie użytkowników.
To zadanie zbierania informacji może wymagać od użytkowników odpowiedzi na pytania dotyczące jednostki.
Te dane jednostki mogą być dostarczane jako dane wejściowe do modelu przewidywania treści uczenia maszynowego.
Model przewidywania treści uczenia maszynowego może obejmować regresję logistyczną.
Przykłady podmiotów, o które poproszono, aby dowiedzieć się o nich więcej
Może to mieć więcej sensu dla czytelnika patentu, jeśli poda kilka konkretnych przykładów.
Powiedziano nam, że model przewidywania treści uczących się maszynowo może dostarczać jako dane wyjściowe wywnioskowane dane encji powiązane z atrybutem encji.
Dane wywnioskowanej jednostki mogą zawierać informacje związane z przewidywanymi lub szacowanymi wynikami zadania zbierania informacji.
W szczególności zadanie zbierania informacji może być powiązane z systemem pytań i odpowiedzi lub innym doświadczeniem wnoszącym wkład używanym do zbierania informacji związanych z jednostką.
To zadanie zbierania informacji może być dowolnym odpowiednim zadaniem, które prosi użytkowników o udzielenie odpowiedzi związanej z atrybutem jednostki.
Jednostki te mogą być dowolnymi odpowiednimi jednostkami, takimi jak firma, restauracja, film, piosenka, książka, wideo, produkt lub jakakolwiek inna odpowiednia jednostka, dla której można uzyskać informacje opisowe.
To zadanie zbierania informacji może być powiązane z ankietą, kwestionariuszem itp., powiązanymi z podmiotem.
Zadanie zbierania informacji może być pytaniem przekazanym użytkownikom powiązanym z atrybutem jednostki.
Pytania mogą być „pytaniem logicznym” z możliwymi odpowiedziami „prawda” lub „fałsz” (lub „niepewny”).
Na przykład zadanie informacyjne może zawierać pytanie o to, czy dana restauracja zapewnia romantyczną atmosferę lub czy restauracja zapewnia atmosferę przyjazną dla dużych grup.
W ten sposób użytkownik może podać prawdziwą odpowiedź, aby wskazać, że jednostka posiada atrybut lub fałszywą odpowiedź, aby wskazać, że jednostka nie posiada atrybutu.
Otrzymuję pytania dotyczące firm w związku z pytaniami dotyczącymi Lokalnego przewodnika w programie Google Moja Firma.
Dane jednostki określonej przez użytkownika mogą zawierać dane wskazujące odpowiedzi użytkownika na dostarczone zadania zbierania informacji.
Tego rodzaju dane jednostki określonej przez użytkownika mogą być dostarczane jako dane wejściowe do modelu przewidywania treści uczenia maszynowego.
Dane jednostki określonej przez użytkownika można dostarczyć do regresji logistycznej modelu przewidywania treści.
A regresja logistyczna może dalej otrzymywać dane o globalnych jednostkach jako dane wejściowe.
Te globalne dane podmiotu mogą obejmować dowolne:
- Odpowiednie ustrukturyzowane lub nieustrukturyzowane dane powiązane z podmiotem
- Jeden lub więcej dodatkowych podmiotów
- Obszar geograficzny (np. miasto, powiat, numer kierunkowy, kraj itp.), w którym znajduje się podmiot
- I/lub inne odpowiednie dane.
Te dane globalne mogą obejmować:
- Dane wskazujące na odpowiedzi użytkowników na różne inne zadania związane z gromadzeniem informacji związane z podmiotem i/lub dodatkowymi podmiotami
- Różne atrybuty podmiotu i/lub dodatkowych podmiotów
- Słowa kluczowe powiązane z podmiotem i/lub dodatkowymi podmiotami
- Itp.
.
Czego ludzie dowiadują się o podmiotach?
Globalne dane podmiotów mogą być powiązane z profilem podmiotów, które opisują różne aspekty podmiotów.
Globalne dane jednostek można uzyskać z różnych odpowiednich baz danych, takich jak bazy danych związane z systemem informacji geograficznej.
A globalne dane podmiotów można uzyskać z odpowiednich stron internetowych.
Ta regresja logistyczna może być skonfigurowana w celu uzyskania przewidywanego lub szacowanego wskaźnika odpowiedzi „najlepszego przypuszczenia”.
Wskaźnik odpowiedzi „najlepszego przypuszczenia” może przewidywać odpowiedzi użytkowników na zadanie zbierania informacji, gdy liczba odpowiedzi użytkowników zbliża się do nieskończoności.
Wskaźnik odpowiedzi może być „współczynnikiem rzeczywistym”, który określa przewidywany stosunek odpowiedzi „prawdziwych” do całkowitej liczby odpowiedzi na zadanie zbierania informacji, gdy liczba odpowiedzi zbliża się do nieskończoności.

Wskaźnik odpowiedzi na pytania można określić na podstawie przynajmniej częściowo danych podmiotu i/lub globalnych danych podmiotu.
Korelacje mogą być identyfikowane w danych podmiotu globalnego. Te korelacje mogą wskazywać na prawdopodobieństwo opartych na atrybutach, przynajmniej częściowo, różnych sygnałów w ramach globalnych danych jednostki.
Na przykład można stwierdzić, że podmiot sklasyfikowany jako mikrobrowar (zgodnie z danymi podmiotu globalnego) generalnie otrzymuje wysoki odsetek odpowiedzi „prawdziwych” na zadanie zbierania informacji z pytaniem, czy podmiot zapewnia dobrą atmosferę dla grup.
Regresja logistyczna związana z zadaniem zbierania informacji z pytaniem, czy dany minibrowar jest dobry dla grup, może uwzględnić taką korelację przy określaniu przewidywanego wskaźnika odpowiedzi dla zadania zbierania informacji.
W ten sposób wskaźnik odpowiedzi może być określony przynajmniej częściowo na podstawie atrybutów podmiotu przedmiotowego, które są wspólne lub podobne do atrybutów różnych innych podmiotów.
Patent mówi nam również, że model przewidywania treści uczących się maszynowo może ponadto obejmować model dwumianowy beta połączony z regresją logistyczną.
Jako taki model, wynik regresji logistycznej (np. przewidywany wskaźnik odpowiedzi) może być dostarczany jako dane wejściowe do modelu dwumianowego beta.
Dane encji określonych przez użytkownika mogą być dalej dostarczane do modelu dwumianowego beta jako dane wejściowe.
Ten dwumianowy model beta można skonfigurować w celu wywnioskowania danych jednostki skojarzonych z jednostką i zadaniem zbierania informacji.
Model dwumianowy beta można skonfigurować tak, aby używał wyniku ufności związanego z przewidywanym współczynnikiem odpowiedzi.
Model beta-dwumianowy można skonfigurować w celu określenia wniosków wnioskujących na podstawie przynajmniej częściowo wskaźnika odpowiedzi i/lub wyniku ufności.
Model beta-dwumianowy można skonfigurować tak, aby wyprowadzał wniosek wnioskowania wskazujący procent prawdopodobieństwa, że „prawdziwy” wskaźnik odpowiedzi na pytanie logiczne zadania zbierania informacji będzie większy niż pewien próg.
Model beta-dwumianowy może generować twierdzenie inferencyjne, które wskazuje, że „prawdziwy” wskaźnik odpowiedzi na pytanie logiczne zadania zbierania informacji będzie poniżej pewnego progu.
Model dwumianowy beta może być skonfigurowany do generowania funkcji gęstości prawdopodobieństwa, określającej prawdopodobieństwa różnych wskaźników odpowiedzi związanych z zadaniem zbierania informacji.
Dane wyjściowe modelu dwumianowego beta można wykorzystać do określenia atrybutu związanego z zadaniem zbierania informacji.
Wywnioskowane dane jednostki mogą określić, czy jednostka posiada atrybut skojarzony z zadaniem zbierania informacji.
Na przykład zadanie zbierania informacji z pytaniem o jednostkę może zapewnić dobrą atmosferę dla grup, na które można odpowiedzieć pozytywnie lub negatywnie w oparciu przynajmniej częściowo o wywnioskowane dane jednostki wyjściowej za pomocą modelu dwumianowego beta.
Atrybut można określić na podstawie tego, czy dane wywnioskowanej encji spełniają odpowiednie kryteria.
Na przykład kryteria mogą być powiązane z wynikiem instrukcji wnioskowania przez model dwumianowy beta.
Crowdsourcing treści generowanych przez użytkowników
Zadanie zbierania informacji może być powiązane z systemem pytań i odpowiedzi, w którym kilka zadań zbierania informacji jest dostarczanych do wielu użytkowników w celu zbierania informacji „crowdsource” związanych z wieloma podmiotami.
Przykłady niniejszego ujawnienia można zastosować do wielu zadań zbierania informacji w systemie pytań i odpowiedzi.
Narzędzia określone dla zadań zbierania informacji mogą ustalać priorytety i/lub klasyfikować zadania zbierania informacji.
Te zadania związane z gromadzeniem informacji mogą być udostępniane kolejnym użytkownikom poprzez ustalanie priorytetów.
Na przykład, zadanie zbierania informacji o wyższej użyteczności może być dostarczone użytkownikowi przed realizacją zadania zbierania informacji o niższej użyteczności.
W ten sposób zadania zbierania informacji, dla których kolejna dodatkowa odpowiedź będzie miała większy wpływ na określenie atrybutu dla podmiotu, mogą być traktowane priorytetowo w realizacji zadań zbierania informacji.
Wykorzystanie uczenia maszynowego do przewidywania treści generowanych przez użytkowników
Treści generowane przez użytkowników mogą służyć do pozyskiwania informacji o wielu podmiotach.
Możemy uzyskać informacje o tych podmiotach, angażując kilku użytkowników w doświadczenie wkładu.
Na przykład, te doświadczenia związane z wkładem mogą obejmować system pytań i odpowiedzi, w którym użytkownikom dostarczane są pytania i/lub inne podpowiedzi dotyczące różnych podmiotów. Użytkownicy są poinstruowani, aby odpowiedzieć na pytania i/lub podpowiedzi.
Te odpowiedzi użytkownika mogą służyć do wyciągania wniosków związanych z atrybutami różnych jednostek.
Doświadczenia dotyczące wkładu mogą wymagać znacznej liczby odpowiedzi użytkownika, zanim będzie można dokonać dokładnego wnioskowania dotyczącego jednostki.
Wielu użytkowników może być zobowiązanych do wskazania, że dana jednostka posiada atrybut, aby można było dokonać dokładnego wnioskowania o posiadaniu atrybutu przez jednostkę.
Na przykład system pytań i odpowiedzi może być ankietą, kwestionariuszem itp., dostarczaną użytkownikom w celu uzyskania informacji na temat podmiotu z tłumu.
Zaangażowane podmioty mogą być dowolnymi odpowiednimi podmiotami, takimi jak:
- Lokalizacja geograficzna
- Punkt zainteresowania
- Biznes
- Restauracja
- Element krajobrazu
- Piosenka
- Film
- Wideo
- Książka
- Produkt
- Każdy inny odpowiedni podmiot, dla którego można uzyskać informacje za pośrednictwem systemu pytań i odpowiedzi
Oprócz tego, że ludzie odpowiadają na pytania dotyczące firm i innych podmiotów, Google może znaleźć inne sposoby poznawania podmiotów, o czym pisałem w poście Zapytania wyszukiwarek mogą być używane do identyfikacji atrybutów jednostek.
Omówiłem ten temat również w poście Google Add Entity Attributes do swojej bazy wiedzy z zapytań
To ma sens, że Google może znaleźć inne sposoby zadawania pytań i poznawania podmiotów, zwłaszcza gdy mają dużą pulę współpracujących użytkowników, takich jak Lokalni przewodnicy w Mapach Google.
Nie powinno dziwić, że wyszukiwarka użyje tylu źródeł informacji, ile tylko może, aby dowiedzieć się więcej o rzeczywistych jednostkach, które może indeksować, takich jak jednostki.
Jakie dane podmiotów może gromadzić Google?
Może obejmować:
- Wszelkie odpowiednie ustrukturyzowane lub nieustrukturyzowane dane powiązane z podmiotem
- Jeden lub więcej dodatkowych podmiotów
- Obszar geograficzny (np. miasto, powiat, numer kierunkowy, kraj itp.), w którym znajduje się podmiot
- Inne odpowiednie dane
Mogą one również obejmować dane wskazujące na odpowiedzi użytkowników na wiele innych zadań zbierania informacji związanych z jednostkami, atrybuty jednostek lub słowa kluczowe powiązane z jednostkami.
Patent zawiera wiele szczegółów dotyczących zbierania informacji związanych z podmiotami związanymi z serwisem internetowym. Jak już wspomniałem, Google może dowiedzieć się o podmiotach poprzez zrozumienie zapytań z nimi związanych oraz tego, czego może szukać wyszukiwarka, tworząc zapytania dotyczące witryny lub podmiotu z nią powiązanego.
W przeszłości pisałem o patentach Google obejmujących treści generowane przez użytkowników, na przykład w poście Czy wyszukiwarki znajdują wartość w wynikach wyszukiwania treści generowanych przez użytkowników?. Nie powinno więc dziwić, że Google użyje metody uczenia maszynowego, aby zebrać więcej danych o podmiotach, zwłaszcza że ma odbiorców, którzy pomogą mu się o nich dowiedzieć.
Widzieliśmy, jak Google coraz częściej wykorzystuje informacje o encjach za pomocą wykresów wiedzy w wyszukiwaniu, o czym pisałem w rankingu jednostek w wynikach wyszukiwania w Google
W ramach przygotowań do takiej zmiany SEO, sensowne jest, aby ktoś pracujący w witrynie dowiedział się jak najwięcej o podmiotach zaangażowanych w tę witrynę i starał się zawrzeć jak najwięcej pozytywnych informacji o tych podmiotach w tej witrynie.
