Como o Google pode associar imagens aos resultados de pesquisa

Publicados: 2017-04-07

Um passe de imprensa

Como as imagens podem ser escolhidas para os resultados da pesquisa

Há alguns anos, alguns ex-funcionários do Google (pelo menos um que já voltou) iniciaram um mecanismo de busca com o nome Cuil, que foi chamado de Google-killer quando começou. Ele ficou conhecido por mostrar imagens com resultados de pesquisa, e essas imagens nem sempre foram bem escolhidas ou precisas - Veja esta postagem do blog para um exemplo de críticas a imagens em resultados de pesquisa do Cuil: Qual é o problema com o Cuil ?.

O Google mostra imagens ao lado de resultados de notícias há anos. Como eles evitaram cometer os tipos de erros que Cuil estava cometendo com suas imagens? Uma patente foi concedida ao Google esta semana, que discute algumas das coisas que eles fazem para tornar as imagens que aparecem em seus resultados de notícias mais precisas.

No início da descrição da patente, eles nos contam por que mostram imagens com resultados de notícias e qual é um dos desafios de fazer isso:

No caso de documentos de notícias, os usuários podem achar benéfico ver uma imagem associada aos documentos de notícias. Muitas vezes, no entanto, os documentos noticiosos incluem várias imagens, algumas das quais podem não estar relacionadas ao tópico dos documentos noticiosos. Isso torna difícil selecionar automaticamente as imagens apropriadas para os documentos de notícias.

Eles nos fornecem um resumo da abordagem que adotam para tentar usar imagens que sejam precisas e úteis nos novos resultados que mostram:

De acordo com um aspecto consistente com os princípios da invenção, um método inclui identificar imagens associadas a um documento, filtrar as imagens para criar um conjunto de imagens candidatas, detectar legendas associadas às imagens candidatas e selecionar uma das imagens candidatas para associar com o documento com base nas legendas detectadas.

Esta patente recém-concedida é:

Seleção de imagens para pesquisa de notícias
Inventores: Hong Zhou, Srdjan Mitrovic, Krishna Bharat, Michael Schmitt e Michael Curtiss
Cessionário: Google Inc.
Patente US 9.613.061
Concedido: 4 de abril de 2017
Arquivado: 28 de maio de 2014

Resumo

Um sistema identifica um primeiro documento que inclui várias primeiras imagens, identifica um segundo documento que inclui muitas segundas imagens e forma um cluster com base em uma relação entre o primeiro documento e o segundo documento. O sistema identifica uma primeira legenda associada a uma das primeiras imagens, identifica uma segunda legenda associada a uma das segundas imagens, seleciona uma das primeiras imagens de uma das segundas imagens como uma imagem representativa para o cluster com base na primeira legenda ou a segunda legenda, e associa a imagem representativa ao cluster.

Unidade de rastreamento de notícias

A patente nos fala sobre o comportamento de uma “Unidade de rastreamento de notícias”, o que parece uma mentira como poderíamos imaginar que um Googlebot voltado para notícias se comportaria se focasse principalmente em rastrear documentos de notícias. Ele pode prosseguir em rastreamentos específicos da web que começam com URLs que podem ser associados a fontes de notícias. Capturaria imagens nessas páginas para incluir nas notícias:

A unidade de rastreamento de notícias também pode rastrear as imagens com base em seus endereços extraídos e armazenar as imagens e outras informações relacionadas às imagens. Por exemplo, unidades de rastreamento de notícias podem obter informações temporais e informações de contagem de referência relacionadas às imagens. As informações temporais podem ser úteis para identificar “imagens de banco de imagens” (ou seja, imagens que são usadas em vários documentos de notícias relacionados ao mesmo tópico). Imagens de banco de imagens podem ser qualificadas como boas imagens candidatas. As informações de contagem de referência podem ser úteis para identificar imagens vinculadas a vários documentos de notícias no mesmo host, mas não diretamente relacionadas aos tópicos dos documentos de notícias, como imagens de colunistas ou ícones relacionados a fontes de notícias. Imagens com contagens de referência altas podem ser determinadas como não sendo boas imagens candidatas.

Isso nos dá uma ideia de como o Google pode escolher as imagens que vemos que acompanham as notícias. A patente continua a nos dizer como pode classificar boas imagens candidatas a partir de imagens que podem não ser boas escolhas para mostrar nos resultados de pesquisa, incluindo imagens com formatos e formatos estranhos ou aquelas que não estão relacionadas ao tópico dos documentos de notícias de origem que são perto, como imagens relacionadas a anúncios ou colunistas.

A patente também nos diz que as imagens abaixo de um determinado tamanho de dimensão ou proporção (tornando-as possivelmente muito altas ou muito estreitas) também podem ser excluídas como uma imagem candidata (uma candidata a ser exibida nos resultados de notícias).

Também somos informados de que uma imagem que inclui um link pode ser descartada como candidata porque as imagens vinculadas geralmente são anúncios.

As imagens hospedadas em outro lugar que não seja onde a fonte de notícias está hospedada também podem ser descartadas como imagens candidatas porque podem ser anúncios, a menos que sejam de uma rede de distribuição de conteúdo.

Legendas de imagem

Quando as imagens são rastreadas, as informações sobre as legendas das imagens podem ser detectadas porque essas podem ser boas descrições das imagens e indicam se a imagem pode estar relacionada ao tópico do documento de notícias de origem.

Quando uma imagem e um texto são capturados juntos em tags HTML, como em uma célula de tabela, esse texto pode ser associado à imagem. Da mesma forma, o texto alternativo pode ser associado à imagem e usado como o texto alternativo da imagem quando usado como resultado de notícias.

A patente nos diz que alguns testes em texto alternativo para uma imagem poderiam ser analisados ​​para ver se ela contém palavras "venenosas", como uma palavra que pode identificar o nome do autor da imagem ou palavras que não estão relacionadas ao tema de o documento de notícias. Se o texto alternativo não contiver palavras suspeitas, ele poderá ser usado como legenda da imagem.

Se a imagem estiver em um contêiner HTML, como uma célula de tabela com texto, esse texto pode ser usado como uma legenda da imagem (ou texto de uma célula vizinha).

Se o texto que compartilha um contêiner HTML exceder um determinado limite ou for muito volumoso, pode não ser considerado uma legenda porque é provável que faça parte do documento de notícias.

Pontuações de imagens

A patente nos diz que as pontuações de imagem para cada uma das imagens candidatas podem ser criadas com base em certos fatores, tais como:

  • tamanho da imagem
  • distância ao título do documento de notícias
  • uma sobreposição entre a legenda da imagem e o centroide do documento de notícias

Filtros Adicionais

Também somos informados de que alguns outros filtros podem ser usados ​​para decidir se a imagem de uma fonte de notícias deve acompanhar essa notícia nos resultados de notícias. Isso pode incluir:

  • imagens que contêm texto
  • imagens que se parecem mais com clip-art, em oposição a fotografias
  • imagens que são todas da mesma cor
  • outros critérios

Imagens de nível de cluster

Novos tópicos são freqüentemente divididos em grupos de documentos sobre esses tópicos.

A patente nos diz que as imagens podem ser associadas dentro de um cluster a tópicos, e a imagem com melhor classificação dentro de um cluster de tópico pode ser determinada com base na classificação do documento de notícias de origem dentro desse cluster - quanto mais alto o documento de notícias é classificado em um cluster, “é mais provável que sua imagem seja representativa do cluster”.

Também somos informados de que as palavras na legenda de uma imagem podem ser vistas, e o número de vezes que as palavras na legenda da imagem aparecem no corpo dos documentos do cluster, é mais provável que a imagem esteja relacionada ao tópico do cluster.

Outras aplicações

Tenho visto algumas patentes em que uma ou mais frases perto do final da patente podem ter mais significado para elas do que se poderia esperar. Há uma frase assim nesta patente, onde nos diz:

Além disso, embora descritos no contexto de pesquisas de notícias, sistemas e métodos consistentes com os princípios da invenção podem ser aplicados a pesquisas que não são de notícias, como pesquisas de produtos.

Parece que não seria uma má ideia pensar em como o Google pode usar alguns dos métodos descritos na patente para aplicar a associação de imagens aos resultados da pesquisa, além da pesquisa de notícias. Mais ou menos como Cuil era - mas provavelmente melhor do que Cuil era.