Como o Google encontra spam na App Store

Publicados: 2017-11-01

O Google está caçando spam da loja de aplicativos na Play Store entre os aplicativos disponíveis lá.

Patenteando a descoberta de spam na App Store

Gosto de olhar para patentes envolvendo pesquisa e a Web porque elas explicam problemas que os mecanismos de pesquisa estão tentando resolver. Essas patentes nos mostram invenções com o objetivo de solucionar esses problemas. Às vezes, eles nos mostram como alguém pode aprender a resolver seus problemas estudando como outras empresas lidaram com problemas semelhantes.

Este mês, uma patente do Google foi concedida que encontra spam na loja de aplicativos. Com o Google inventando e executando o sistema operacional Android, ele desenvolveu um mercado para aplicativos executados em dispositivos Android. Como concorrente da Apple, tem muito a aprender com a Apple. A patente do Google menciona alguns artigos citados pelos requerentes de patentes que possivelmente influenciaram sua redação. Lê-los é uma boa introdução à patente.

Curiosamente, esses artigos se concentram na App Store da Apple, ao contrário de um dirigido pelo Google. Faz sentido que o Google também analise os problemas que a App Store da Apple pode estar tendo para ajudá-los a administrar sua própria App Store.

O primeiro desses artigos é chamado de Identificação de spam na loja de aplicativos iOS

O resumo deste artigo nos fala sobre aplicativos e problemas relacionados a pessoas que fazem spam na App Store da Apple:

Aplicativos populares na Apple iOS App Store podem gerar milhões de dólares em lucros e coletar informações pessoais valiosas do usuário. As análises fraudulentas podem enganar os usuários para que façam o download de aplicativos de spam potencialmente prejudiciais ou ignorem injustamente os aplicativos que são vítimas de spam de análise. Portanto, a identificação automática de spam na App Store é um problema importante. Este artigo tem como objetivo apresentar e caracterizar novos conjuntos de dados adquiridos por meio do rastreamento na App Store do iOS, comparar um modelo de árvore de decisão de linha de base com um novo modelo gráfico Latent Class para classificação de spam de aplicativos e analisar resultados preliminares para análises de agrupamento.

Na introdução do artigo, somos informados mais sobre os problemas com aplicativos de spam:

Os desenvolvedores de aplicativos de spam (desenvolvedores mal-intencionados) estão principalmente interessados ​​em obter lucro monetário ou lixiviar dados valiosos do usuário, como contatos do catálogo de endereços. Aplicativos populares e aparentemente legítimos podem vazar dados do usuário silenciosamente [2, 4], então é possível que aplicativos de spam tentem fazer o mesmo.

É possível aprender muito olhando para os problemas que outras pessoas experimentaram:

Um desenvolvedor malicioso pode postar análises de spam usando várias contas de usuário descartáveis ​​do iTunes, ou seja, “sockpuppets”. A Apple tentou diminuir a frequência de spam exigindo que os usuários comprassem e baixassem um aplicativo antes de poder analisá-lo. No entanto, as contas de usuário do sockpuppet ainda podem ser criadas usando os cartões-presente do iTunes, e o potencial de lucro e dados roubados do usuário podem justificar o custo.

Este artigo nos diz que eles trabalharam para identificar spam. Eles fazem isso observando os padrões de revisão que envolvem comportamento de spam na App Store.

O outro artigo nos fala sobre algumas outras coisas que a Apple tentou fazer para identificar o comportamento de spam:

A Apple pode ter ajustado o algoritmo de classificação da App Store, tornando os downloads menos importantes

Curiosamente, este artigo também discute Apps na loja Android:

O Google, que constantemente ajusta suas classificações no Android Market, pode ter começado a pesar a proporção de usuários ativos diários em relação aos usuários ativos mensais de um aplicativo - uma medida de aderência - mais fortemente nas últimas semanas, de acordo com a rede social voltada para adolescentes MyYearbook. A empresa notou flutuações suspeitas de classificação em todo o seu portfólio de aplicativos. O Google não comentou sobre isso.

Somos informados de que, em determinado momento, os downloads costumavam ser muito importantes na Apple Store. Esta é uma mudança significativa:

As mudanças são importantes porque as classificações das lojas de aplicativos da Apple, até o momento, dependiam muito da taxa de download de um aplicativo. Isso permitiu o florescimento de toda uma indústria artesanal. Redes como Flurry, Tapjoy e W3i permitem que os desenvolvedores paguem pelos downloads, o que coloca seus aplicativos no topo das paradas, onde podem obter ainda mais downloads por terem visibilidade extra. Se eles forem bons, eles ficarão no topo das paradas. Se forem ruins, caem rapidamente.

A patente do Google é:

Detectando spam de classificação de loja de aplicativos
Inventores: Kaihua Zhu e Ping Wu
Cessionário: GOOGLE INC.
Patente dos EUA: 9.794.106
Concedido: 17 de outubro de 2017
Arquivado: 4 de março de 2013

Resumo

Um servidor, que pode ser configurado para gerenciar a distribuição de conteúdo aos usuários, pode receber informações relacionadas ao conteúdo associadas a um usuário específico e analisar as informações relacionadas ao conteúdo. Tal análise pode compreender a comparação de parâmetros nas informações relacionadas ao conteúdo com os parâmetros predefinidos correspondentes no servidor para determinar as atividades relacionadas ao conteúdo aceitáveis ​​e classificar os usuários com base na análise das informações relacionadas ao conteúdo. As informações relacionadas ao conteúdo podem compreender um ou mais dados relacionados ao uso do conteúdo, métricas relacionadas ao download de conteúdo ou métricas relacionadas à sessão do usuário relacionadas a uma ou mais sessões utilizadas pelos usuários em conjunto com o uso do conteúdo gerenciado por meio do servidor.

É útil ler esses artigos primeiro, antes de ler esta patente. Eles fornecem uma ideia do que está em risco, bem como do que mudou, e por que a patente se concentra nas coisas que faz.

Somos informados de que os dados relacionados ao uso de conteúdo são métricas importantes compostas por:

  1. Dados gerados em dispositivos eletrônicos durante o uso do conteúdo pelo usuário,
  2. Dados de mercado relacionados ao número de compras ou atualizações de determinado conteúdo, e
  3. Dados de terceiros sobre atividades de uso de conteúdo.

A patente nos fala sobre métricas relacionadas ao download que incluem coisas como:

  1. Uma porcentagem de um determinado tipo de conteúdo de todo o conteúdo baixado pelo usuário
  2. Um número máximo de conteúdo baixado em um único dia
  3. Um número total de conteúdo baixado
  4. Um número máximo de conteúdo baixado em uma única semana

Outra coisa que uma loja pode observar é como as pessoas que procuram por aplicativos podem agir em uma loja de aplicativos:

As métricas relacionadas à sessão do usuário podem incluir:

  1. Uma porcentagem do conteúdo baixado da pesquisa pelo usuário
  2. Uma série de perguntas feitas pelo usuário
  3. Uma porcentagem do conteúdo baixado da navegação e / ou clickthrough
  4. Uma duração média da sessão e / ou um atraso da pesquisa ao download
  5. Uma porcentagem do conteúdo baixado do tráfego de entrada direto.

Métricas baseadas no uso de aplicativos para encontrar spam na App Store

Além de observar como as pessoas se comportam em uma loja de aplicativos, os dispositivos que executam aplicativos podem coletar dados sobre como esses aplicativos são usados ​​pelas pessoas que os instalam.

Recebemos detalhes das motivações por trás de tal abordagem e como ela funciona, na descrição da patente:

Por exemplo, com a classificação baseada no uso do aplicativo e / ou detecção de spam, os aplicativos podem ser classificados com base no uso em vez do número total de download. Nesse sentido, o uso pode ser muito mais caro para gerar do que para download, tornando o custo de geração de spam de download de aplicativo muito caro para ser sustentável. Consequentemente, os dispositivos do cliente podem coletar e / ou obter métricas relacionadas ao uso. Exemplos de métricas relacionadas ao uso podem incluir métricas relacionadas ao sistema operacional (SO) e / ou outras informações relacionadas à API, como várias vezes que um determinado aplicativo é iniciado e por quanto tempo os usuários o utilizam; métricas de mercado, como várias vezes que o aplicativo é atualizado e quantas vezes as compras no aplicativo (conforme os mercados de aplicativos tratam do pagamento); e dados de terceiros. A este respeito, entidades especializadas de aplicativos de terceiros podem coletar e / ou obter o uso de aplicativos de centenas de milhares de uso de aplicativos em centenas de milhões de dispositivos e / ou fornecer esses dados. O servidor de gerenciamento de aplicativos pode determinar inicialmente a confiabilidade das métricas relacionadas ao uso. Uma vez determinado como confiável, o servidor de gerenciamento de aplicativos pode combinar e / ou analisar todas as diferentes informações relacionadas ao uso, o que permite determinar de forma mais otimizada como um usuário médio usaria um determinado aplicativo (por exemplo, quanto tempo usando o aplicativo) e, portanto, o gerenciamento do aplicativo o servidor pode classificar os aplicativos (ou ajustar qualquer classificação existente) de acordo. Além disso, o servidor de gerenciamento de aplicativos pode usar a classificação e / ou ajuste de classificação para decidir sobre a classificação do usuário.

Conclusão: Identificando Anormalidades

A patente também fornece detalhes sobre como baixar dados de interação e de sessão do usuário podem ser usados ​​para identificar Spammers. Esses detalhes também ajudam a determinar aplicativos que podem não ser legítimos. Este é o tipo de dado do usuário que pode ser revisado quando um aplicativo é selecionado e baixado:

O servidor de gerenciamento de aplicativos pode, por exemplo, obter, coletar ou receber dados relativos às consultas de pesquisa do usuário feitas por meio da caixa de pesquisa de mercado;
links clicados nas páginas do mercado;
visualizações do usuário da página do mercado;
tempo gasto em cada página;
e / ou o usuário do aplicativo de evento de download (comprado) baixado e instalado.

A patente nos diz que as informações também são coletadas quando os usuários passam por uma fase de descoberta e encontram um aplicativo, e que eles estão observando cuidadosamente se há atividades incomuns:

Para cada aplicativo baixado, o servidor de gerenciamento de aplicativos pode identificar o motivo pelo qual o aplicativo foi baixado e pode gerar um conjunto de métricas relacionadas à sessão do usuário correspondente a esse download. O analisador de dados do aplicativo pode então determinar a porcentagem em toda a população geral de usuários para identificar uma anormalidade. Exemplos de métricas de sessão podem referir-se a coisas como várias consultas que o usuário emitiu durante uma determinada sessão (e / ou consulta total no período específico - por exemplo, por dia); a porcentagem do aplicativo baixado da pesquisa; porcentagem de download do aplicativo de navegação e cliques; porcentagem do aplicativo baixado do tráfego de entrada direto; duração média da sessão; e / ou atraso da pesquisa ao download. Consequentemente, obter métricas relacionadas à sessão do usuário para a população geral de usuários pode permitir a determinação de critérios relacionados à sessão esperada aplicável (por exemplo, limite (s)), que, por sua vez, seriam usados ​​(por exemplo, comparação) para determinar onde as métricas da sessão correspondem a os aplicativos de determinado usuário caem (ou seja, em comparação com a população geral de usuários) e, portanto, permitem a classificação do usuário.

O comportamento incomum relacionado ao comportamento das pessoas em uma App Store pode ajudar a apontar aplicativos que podem não ser aplicativos que as pessoas gostariam de usar ou baixar. Vimos o sucesso que o Google e a Apple tiveram com o popular jogo Pokémon no ano passado. Fornecer às pessoas um aplicativo popular pode valer o esforço de combater o spam da App Store.