Comment Google trouve le spam de l'App Store

Publié: 2017-11-01

Google recherche le spam de l'App Store dans le Play Store parmi les applications qui y sont disponibles.

Brevetage Trouver du spam dans l'App Store

J'aime regarder les brevets impliquant la recherche et le Web parce qu'ils expliquent les problèmes que les moteurs de recherche essaient de résoudre. Ces brevets nous montrent des inventions conçues comme des solutions pour résoudre ces problèmes. Parfois, ils nous montrent comment quelqu'un peut apprendre à résoudre ses problèmes en étudiant comment d'autres entreprises ont résolu des problèmes similaires.

Ce mois-ci, un brevet Google a été accordé qui trouve le spam dans les magasins d'applications. Avec Google inventant et exécutant le système d'exploitation Android, il a développé un marché pour les applications fonctionnant sur les appareils Android. En tant que concurrent d'Apple, il a beaucoup à apprendre d'Apple. Le brevet Google mentionne quelques articles cités par les demandeurs de brevet qui ont peut-être influencé leur écriture. Leur lecture est une bonne introduction au brevet.

Fait intéressant, ces articles se concentrent sur l'App Store d'Apple, par opposition à celui géré par Google. Il est logique que Google examine également les problèmes que l'App Store d'Apple aurait pu rencontrer pour les aider à gérer leur propre App Store.

Le premier de ces articles s'intitule, Identifier le spam dans la boutique d'applications iOS

Le résumé de cet article nous informe sur les applications et les problèmes liés aux spams sur l'App Store d'Apple :

Les applications populaires sur l'App Store d'Apple iOS peuvent générer des millions de dollars de bénéfices et collecter des informations personnelles précieuses sur les utilisateurs. Les avis frauduleux peuvent inciter les utilisateurs à télécharger des applications de spam potentiellement dangereuses ou à ignorer injustement les applications victimes de spam d'avis. Ainsi, l'identification automatique du spam dans l'App Store est un problème important. Cet article vise à présenter et à caractériser de nouveaux ensembles de données acquis en explorant l'App Store iOS, à comparer un modèle d'arbre de décision de base avec un nouveau modèle graphique de classe latente pour la classification du spam d'applications et à analyser les résultats préliminaires pour les revues de cluster.

Dans l'introduction de l'article, on nous en dit plus sur les problèmes liés aux applications de spam :

Les développeurs d'applications anti-spam (développeurs malveillants) sont principalement intéressés à obtenir des bénéfices monétaires ou à lixivier des données utilisateur précieuses, telles que les contacts du carnet d'adresses. Les applications populaires et apparemment légitimes peuvent divulguer discrètement les données des utilisateurs [2, 4], il est donc possible que les applications de spam tentent de faire de même.

Il est possible d'apprendre beaucoup en regardant les problèmes que d'autres ont vécus :

Un développeur malveillant pourrait publier des critiques de spam en utilisant plusieurs comptes d'utilisateurs iTunes jetables, c'est-à-dire « sockpuppets ». Apple a tenté de réduire la fréquence du spam en exigeant des utilisateurs qu'ils achètent et téléchargent une application avant de pouvoir la consulter. Cependant, les comptes d'utilisateurs sockpuppet peuvent toujours être créés à l'aide de cartes-cadeaux iTunes, et le potentiel de profit et les données d'utilisateur volées pourraient justifier le coût.

Ce document nous dit qu'ils ont travaillé pour identifier le spam. Pour ce faire, ils examinent les modèles d'examen impliquant un comportement de spam dans l'App Store.

L'autre article nous parle d'autres choses qu'Apple a essayé de faire pour identifier le comportement de spam :

Apple a peut-être modifié l'algorithme de classement de l'App Store, ce qui rend les téléchargements moins importants

Fait intéressant, cet article traite également des applications dans la boutique Android :

Google, qui modifie constamment son classement sur l'Android Market, a peut-être commencé à peser plus fortement le ratio d'utilisateurs actifs quotidiens par rapport aux utilisateurs actifs mensuels d'une application – une mesure de l'adhérence – ces dernières semaines, selon le réseau social MyYearbook, axé sur les adolescents. L'entreprise avait remarqué des fluctuations de classement suspectes dans l'ensemble de son portefeuille d'applications. Google n'a pas fait de commentaire à ce sujet.

On nous dit qu'à un moment donné, les téléchargements étaient très importants dans l'Apple Store. C'est un changement important :

Les changements sont importants car le classement des magasins d'applications Apple dépendait jusqu'à présent fortement du taux de téléchargement d'une application. Cela a permis à toute une industrie artisanale de prospérer. Des réseaux comme Flurry, Tapjoy et W3i permettent aux développeurs de payer pour les téléchargements, ce qui place leurs applications en tête des classements où ils peuvent obtenir encore plus de téléchargements grâce à une visibilité supplémentaire. S'ils sont bons, ils restent en haut des charts. S'ils sont mauvais, ils tombent rapidement.

Le brevet de Google est :

Détection du spam de classement des magasins d'applications
Inventeurs : Kaihua Zhu et Ping Wu
Cessionnaire : GOOGLE INC.
Brevet américain : 9 794 106
Attribué : 17 octobre 2017
Déposé : 4 mars 2013

Résumé

Un serveur, qui peut être configuré pour gérer la distribution de contenu aux utilisateurs, peut recevoir des informations relatives au contenu associées à un utilisateur particulier et analyser les informations relatives au contenu. Une telle analyse peut comprendre la comparaison de paramètres dans les informations liées au contenu avec des paramètres prédéfinis correspondants dans le serveur pour déterminer des activités liées au contenu acceptables et classer les utilisateurs sur la base de l'analyse des informations liées au contenu. Les informations liées au contenu peuvent comprendre une ou plusieurs données liées à l'utilisation du contenu, des métriques liées au téléchargement de contenu ou des métriques liées à la session utilisateur liées à une ou plusieurs sessions utilisées par les utilisateurs conjointement avec l'utilisation du contenu géré via le serveur.

Il est utile de lire ces articles avant de lire ce brevet. Ils donnent une idée de ce qui est en danger ainsi que de ce qui a changé, et pourquoi le brevet se concentre sur les choses qu'il fait.

On nous dit que les données liées à l'utilisation du contenu sont des mesures importantes qui sont composées de :

  1. Les données générées dans les appareils électroniques lors de l'utilisation du contenu par l'utilisateur,
  2. Les données de marché relatives au nombre d'achats ou de mises à jour d'un contenu particulier, et
  3. Données de tiers sur les activités d'utilisation du contenu.

Le brevet nous informe sur les métriques liées au téléchargement qui incluent des éléments tels que :

  1. Un pourcentage d'un type particulier de contenu de tout le contenu téléchargé par l'utilisateur
  2. Un nombre maximum de contenus téléchargés en une seule journée
  3. Un nombre total de contenus téléchargés
  4. Un nombre maximum de contenus téléchargés en une seule semaine

Une autre chose qu'un magasin peut examiner est la façon dont les personnes à la recherche d'applications peuvent agir dans un magasin d'applications :

Les métriques liées à la session utilisateur peuvent inclure :

  1. Un pourcentage de contenu téléchargé à partir de la recherche par l'utilisateur
  2. Un certain nombre de requêtes émises par l'utilisateur
  3. Un pourcentage de contenu téléchargé à partir de la navigation et/ou du clic
  4. Une durée moyenne de session et/ou un délai entre la recherche et le téléchargement
  5. Un pourcentage de contenu téléchargé à partir du trafic entrant direct.

Métriques basées sur l'utilisation des applications pour trouver le spam de l'App Store

En plus d'examiner le comportement des utilisateurs dans une boutique d'applications, les appareils exécutant des applications peuvent collecter des données sur la manière dont ces applications sont utilisées par les personnes qui les installent.

On nous détaille les motivations d'une telle approche et son fonctionnement, dans la description du brevet :

Par exemple, avec le classement basé sur l'utilisation des applications et/ou la détection de spam, les applications peuvent être classées en fonction de l'utilisation au lieu du nombre total de téléchargements. À cet égard, l'utilisation peut être beaucoup plus coûteuse à générer que le téléchargement, ce qui rend le coût de génération du spam de téléchargement d'applications trop coûteux pour être durable. Par conséquent, les dispositifs clients peuvent collecter et/ou obtenir des métriques liées à l'utilisation. Des exemples de métriques liées à l'utilisation peuvent comprendre des métriques liées au système d'exploitation (OS) et/ou d'autres informations liées à l'API, telles que plusieurs démarrages d'une application particulière et combien de temps les utilisateurs l'utilisent ; les métriques du marché, telles que le nombre de mises à jour de l'application et le nombre d'achats intégrés à l'application (car les marchés d'applications gèrent le paiement) ; et les données de tiers. À cet égard, des entités d'application tierces spécialisées peuvent collecter et/ou obtenir l'utilisation d'applications de centaines de milliers d'utilisations d'applications sur des centaines de millions d'appareils, et/ou fournir ces données. Le serveur de gestion d'applications peut initialement déterminer la fiabilité des métriques liées à l'utilisation. Une fois déterminé comme étant digne de confiance, le serveur de gestion d'applications peut combiner et/ou analyser toutes les différentes informations liées à l'utilisation, ce qui permet de déterminer de manière plus optimale comment un utilisateur moyen utiliserait une application particulière (par exemple, combien de temps utiliser l'application), et donc la gestion de l'application Le serveur peut classer les applications (ou ajuster tout classement existant) en conséquence. De plus, le serveur de gestion d'applications peut utiliser le classement et/ou l'ajustement du classement pour décider de la classification des utilisateurs.

Conclusion : identifier les anomalies

Le brevet fournit également des détails sur la façon de télécharger l'interaction et les données de session utilisateur peuvent être utilisées pour identifier les spammeurs. Ces détails aident également à déterminer les applications qui pourraient ne pas être légitimes. Voici le type de données utilisateur qui peuvent être examinées lorsqu'une application est sélectionnée et téléchargée :

Le serveur de gestion d'applications peut, par exemple, obtenir, collecter ou recevoir des données relatives aux requêtes de recherche des utilisateurs effectuées via la boîte de recherche de marché ;
liens cliqués sur les pages du marché ;
vues des utilisateurs de la page de marché ;
le temps passé sur chaque page ;
et/ou l'utilisateur de l'application d'événement de téléchargement (acheté) téléchargé, installé.

Le brevet nous indique que des informations sont également collectées lorsque les utilisateurs passent par une phase de découverte et trouvent une application, et qu'ils surveillent attentivement toute activité inhabituelle :

Pour chaque application téléchargée, le serveur de gestion d'applications peut identifier la raison pour laquelle l'application est téléchargée et peut générer un ensemble de métriques liées à la session utilisateur correspondant à ce téléchargement. L'analyseur de données d'application peut ensuite déterminer le pourcentage dans l'ensemble de la population d'utilisateurs pour identifier une anomalie. Des exemples de métriques de session peuvent concerner des éléments tels que plusieurs requêtes émises par l'utilisateur au cours d'une session particulière (et/ou une requête totale au cours de la période particulière, par exemple par jour) ; le pourcentage d'applications téléchargées à partir de la recherche ; pourcentage d'application téléchargé à partir de la navigation et du clic ; pourcentage d'applications téléchargées à partir du trafic entrant direct ; durée moyenne des sessions ; et/ou un délai entre la recherche et le téléchargement. Par conséquent, l'obtention de métriques liées à la session utilisateur pour la population globale d'utilisateurs peut permettre de déterminer des critères applicables liés à la session attendus (par exemple, un ou plusieurs seuils), qui seraient à leur tour utilisés (par exemple, une comparaison) pour déterminer où les métriques de session correspondant à les applications d'un utilisateur particulier tombent (c'est-à-dire par rapport à l'ensemble de la population d'utilisateurs) et permettent ainsi la classification de l'utilisateur.

Un comportement inhabituel lié à la façon dont les gens se comportent dans un App Store peut aider à signaler des applications qui pourraient ne pas être des applications que les gens voudraient utiliser ou télécharger. Nous avons vu le succès que Google et Apple ont eu avec le très populaire jeu Pokemon l'année dernière. Fournir aux gens une application populaire peut valoir la peine de lutter contre le spam de l'App Store.