Jak Google znajduje spam w App Store
Opublikowany: 2017-11-01
Google szuka spamu w App Store w sklepie Play wśród dostępnych tam aplikacji.
Patentowanie znajdowania spamu w App Store
Lubię patrzeć na patenty dotyczące wyszukiwania i sieci, ponieważ wyjaśniają one problemy, które wyszukiwarki próbują rozwiązać. Te patenty pokazują nam wynalazki mające na celu rozwiązanie tych problemów. Czasami pokazują nam, jak ktoś może nauczyć się rozwiązywać swoje problemy, badając, jak inne firmy radzą sobie z podobnymi problemami.
W tym miesiącu przyznano patent Google na wykrywanie spamu w sklepach z aplikacjami. Wymyślając i uruchamiając system operacyjny Android, firma Google stworzyła rynek dla aplikacji działających na urządzeniach z Androidem. Jako konkurent Apple może się od Apple wiele nauczyć. Patent Google wymienia kilka artykułów cytowanych przez zgłaszających, które prawdopodobnie wpłynęły na ich pisanie. Ich lektura to dobre wprowadzenie do patentu.
Co ciekawe, artykuły te skupiają się na sklepie Apple App Store, w przeciwieństwie do tego prowadzonego przez Google. Ma sens, że Google przyjrzałby się również problemom, jakie mógł mieć Apple App Store, aby pomóc im w prowadzeniu własnego App Store.
Pierwszy z tych artykułów nosi tytuł Identyfikowanie spamu w sklepie z aplikacjami na iOS
Streszczenie z tego artykułu mówi nam o aplikacjach i problemach związanych z osobami spamującymi w Apple App Store:
Popularne aplikacje w sklepie Apple iOS App Store mogą generować miliony dolarów zysku i gromadzić cenne dane osobowe użytkowników. Fałszywe recenzje mogą skłaniać użytkowników do pobierania potencjalnie szkodliwych aplikacji spamowych lub nieuczciwego ignorowania aplikacji, które są ofiarami spamu z recenzji. Dlatego automatyczne identyfikowanie spamu w App Store jest ważnym problemem. Niniejszy artykuł ma na celu wprowadzenie i scharakteryzowanie nowych zestawów danych uzyskanych dzięki przeszukiwaniu sklepu iOS App Store, porównanie podstawowego modelu drzewa decyzyjnego z nowatorskim modelem graficznym klasy ukrytej do klasyfikacji spamu w aplikacjach oraz przeanalizowanie wstępnych wyników przeglądów klastrowych.
We wstępie do artykułu dowiesz się więcej o problemach z aplikacjami spamującymi:
Twórcy aplikacji spamowych (złośliwi programiści) są przede wszystkim zainteresowani zarabianiem pieniędzy lub wypłukiwaniem cennych danych użytkownika, takich jak kontakty z książki adresowej. Popularne, pozornie legalne aplikacje mogą po cichu wyciekać dane użytkownika [2, 4], więc możliwe, że aplikacje spamujące będą próbowały zrobić to samo.
Patrząc na problemy, których doświadczyli inni, można się wiele nauczyć:
Złośliwy programista może publikować recenzje spamu, korzystając z kilku jednorazowych kont użytkowników iTunes, tj. „sockpuppets”. Firma Apple próbowała zmniejszyć częstotliwość spamu, wymagając od użytkowników zakupu i pobrania aplikacji, zanim będą mogli ją przejrzeć. Jednak konta użytkowników sockpuppet można nadal tworzyć za pomocą kart upominkowych iTunes, a potencjalny zysk i skradzione dane użytkowników mogą uzasadnić koszty.
Ten artykuł mówi nam, że pracowali nad identyfikacją spamu. Robią to, obserwując wzorce recenzji obejmujące zachowania spamerskie w App Store.
Drugi dokument mówi nam o kilku innych rzeczach, które Apple próbował zrobić, aby zidentyfikować zachowanie spamowe:
Apple może ulepszyć algorytm rankingu App Store, dzięki czemu pobieranie ma mniejsze znaczenie
Co ciekawe, w tym artykule omówiono również aplikacje w sklepie Android:
Według portalu społecznościowego MyYearbook, który skupia się na nastolatkach, w ostatnich tygodniach Google, który stale poprawia swoje rankingi w Android Market, zaczął ważyć stosunek liczby aktywnych użytkowników dziennie do liczby aktywnych użytkowników miesięcznie — miarę lepkości — w ostatnich tygodniach. Firma zauważyła podejrzane wahania rankingu w całym portfolio aplikacji. Google nie skomentował tego.
Powiedziano nam, że w pewnym momencie pobieranie było bardzo ważne w Apple Store. To znacząca zmiana:
Zmiany to wielka sprawa, ponieważ rankingi sklepów z aplikacjami Apple do tej pory w dużej mierze opierały się na szybkości pobierania aplikacji. Pozwoliło to rozkwitnąć całemu przemysłowi chałupniczemu. Sieci takie jak Flurry, Tapjoy i W3i pozwalają programistom płacić za pobranie, co powoduje, że ich aplikacje trafiają na szczyty list przebojów, gdzie mogą uzyskać jeszcze więcej pobrań dzięki dodatkowej widoczności. Jeśli są dobrzy, trzymają się szczytów list przebojów. Jeśli są złe, szybko spadają.
Patent Google to:
Wykrywanie spamu w rankingu sklepów z aplikacjami
Wynalazcy: Kaihua Zhu i Ping Wu
Przypisany: GOOGLE INC.
Patent USA: 9 794 106
Przyznano: 17 października 2017 r.
Złożony: 4 marca 2013 r.
Abstrakcyjny
Serwer, który może być skonfigurowany do zarządzania dystrybucją treści do użytkowników, może odbierać informacje dotyczące treści powiązane z konkretnym użytkownikiem i analizować informacje dotyczące treści. Taka analiza może obejmować porównywanie parametrów w informacjach dotyczących treści z odpowiednimi predefiniowanymi parametrami na serwerze w celu określenia akceptowalnych działań związanych z treścią i klasyfikowania użytkowników na podstawie analizy informacji dotyczących treści. Informacje związane z treścią mogą obejmować co najmniej jeden z danych związanych z użytkowaniem treści, metryki związane z pobieraniem treści lub metryki związane z sesją użytkownika związane z jedną lub większą liczbą sesji wykorzystywanych przez użytkowników w związku z wykorzystaniem treści zarządzanych przez serwer.
Warto przeczytać te artykuły przed przeczytaniem tego patentu. Dają poczucie, co jest zagrożone i co się zmieniło oraz dlaczego patent skupia się na tym, co robi.

Powiedziano nam, że dane dotyczące korzystania z treści są ważnymi wskaźnikami, na które składają się:
- Dane generowane w urządzeniach elektronicznych podczas korzystania z treści przez użytkownika,
- Dane rynkowe dotyczące ilości zakupów lub aktualizacji poszczególnych treści oraz
- Dane osób trzecich dotyczące działań związanych z korzystaniem z treści.
Patent mówi nam o metrykach związanych z pobieraniem, które obejmują takie rzeczy, jak:
- Odsetek określonego rodzaju treści od wszystkich treści pobranych przez użytkownika
- Maksymalna liczba treści pobranych w ciągu jednego dnia
- Całkowita liczba pobranych treści
- Maksymalna liczba treści pobranych w ciągu jednego tygodnia
Inną rzeczą, na którą może patrzeć sklep, jest to, jak ludzie szukający aplikacji mogą zachowywać się w sklepie z aplikacjami:
Wskaźniki związane z sesją użytkownika mogą obejmować:
- Procent treści pobranych z wyszukiwania przez użytkownika
- Szereg zapytań wystawionych przez użytkownika
- Procent treści pobranych z przeglądania i/lub klikania
- Średni czas trwania sesji i/lub opóźnienie od wyszukiwania do pobrania
- Procent treści pobranych z bezpośredniego ruchu przychodzącego.
Wskaźniki oparte na wykorzystaniu aplikacji w celu znalezienia spamu w App Store
Oprócz sprawdzania, jak ludzie zachowują się w sklepie z aplikacjami, urządzenia, na których działają aplikacje, mogą gromadzić dane o tym, jak te aplikacje są używane przez osoby, które je instalują.
Szczegóły motywacji takiego podejścia i sposobu jego działania są podane w opisie patentu:
Na przykład w przypadku rankingu aplikacji na podstawie użycia i/lub wykrywania spamu aplikacje mogą być klasyfikowane na podstawie użycia, a nie całkowitej liczby pobrań. W związku z tym użycie może być znacznie droższe do wygenerowania niż do pobrania, przez co koszt generowania spamu pobieranego z aplikacji jest zbyt wysoki, aby można go było utrzymać. W związku z tym urządzenia klienckie mogą gromadzić i/lub uzyskiwać metryki związane z użytkowaniem. Przykłady metryk związanych z użytkowaniem mogą obejmować metryki związane z systemem operacyjnym (OS) i/lub inne informacje związane z interfejsem API, takie jak kilkakrotne uruchomienie określonej aplikacji i czas korzystania z niej przez użytkowników; wskaźniki rynkowe, takie jak kilkakrotność aktualizacji aplikacji i liczba zakupów w aplikacji (ponieważ rynki aplikacji obsługują płatności); oraz dane osób trzecich. W związku z tym wyspecjalizowane jednostki aplikacji stron trzecich mogą gromadzić i/lub uzyskiwać informacje o wykorzystaniu aplikacji setek tysięcy na setkach milionów urządzeń i/lub dostarczać te dane. Serwer zarządzania aplikacjami może początkowo określić wiarygodność metryk związanych z użytkowaniem. Po określeniu jako godny zaufania, serwer zarządzania aplikacjami może łączyć i/lub analizować wszystkie różne informacje związane z użytkowaniem, co pozwala w bardziej optymalny sposób określić, w jaki sposób przeciętny użytkownik będzie korzystał z danej aplikacji (np. ile czasu korzysta z aplikacji), a tym samym zarządzanie aplikacją serwer może odpowiednio uszeregować aplikacje (lub dostosować dowolny istniejący ranking). Ponadto serwer zarządzania aplikacjami może wykorzystać ranking i/lub dostosowanie do rankingu przy podejmowaniu decyzji dotyczących klasyfikacji użytkowników.
Wniosek: identyfikacja nieprawidłowości
Patent zawiera również szczegółowe informacje o tym, jak pobierać dane dotyczące interakcji i sesji użytkownika, które można wykorzystać do identyfikacji spamerów. Te szczegóły pomagają również określić aplikacje, które mogą nie być legalne. Oto rodzaj danych użytkownika, które mogą być przeglądane po wybraniu i pobraniu aplikacji:
Serwer zarządzania aplikacjami może, na przykład, uzyskiwać, gromadzić lub odbierać dane związane z zapytaniami wyszukiwania użytkownika wykonanymi za pośrednictwem pola wyszukiwania rynkowego;
linki kliknięte na stronach rynku;
wyświetlenia użytkowników strony rynku;
czas spędzony na każdej stronie;
i/lub pobrana, zainstalowana przez użytkownika (kupiona) aplikacja zdarzeń pobierania.
Patent mówi nam, że informacje są również gromadzone, gdy użytkownicy przechodzą przez fazę odkrywania i znajdują aplikację oraz że uważnie obserwują nietypową aktywność:
Dla każdej pobranej aplikacji serwer zarządzania aplikacjami może zidentyfikować przyczynę pobrania aplikacji i może wygenerować zestaw metryk związanych z sesją użytkownika, odpowiadający temu pobraniu. Analizator danych aplikacji może następnie określić procent w całej populacji użytkowników w celu zidentyfikowania nieprawidłowości. Przykładowe metryki sesji mogą dotyczyć takich rzeczy, jak kilka zapytań, które użytkownik wysłał podczas określonej sesji (i/lub wszystkich zapytań w danym okresie – np. dziennie); odsetek aplikacji pobranych z wyszukiwania; procent aplikacji pobranych z przeglądania i klikania; procent aplikacji pobranych z bezpośredniego ruchu przychodzącego; średni czas trwania sesji; i/lub opóźnienie od wyszukiwania do pobrania. W związku z tym uzyskanie metryk związanych z sesją użytkownika dla całej populacji użytkowników może pozwolić na określenie odpowiednich oczekiwanych kryteriów związanych z sesją (np. progi), które z kolei zostaną użyte (np. porównanie) przy określaniu, gdzie metryki sesji odpowiadające aplikacje konkretnego użytkownika spadają (tj. w porównaniu z ogólną populacją użytkowników), a tym samym pozwalają na klasyfikację użytkownika.
Nietypowe zachowanie związane z tym, jak ludzie zachowują się w App Store, może pomóc wskazać aplikacje, które mogą nie być aplikacjami, których ludzie chcieliby używać lub pobierać. Widzieliśmy sukces, jaki zarówno Google, jak i Apple odniosły z bardzo popularną grą Pokemon w zeszłym roku. Udostępnienie ludziom popularnej aplikacji może być warte wysiłku w walce ze spamem w App Store.
