Google está retornando os resultados da pesquisa de vídeo usando o aprendizado de máquina?

Publicados: 2020-04-15

Problemas com resultados de pesquisa de vídeo

Uma área que causa problemas para os pesquisadores é quando eles procuram um vídeo em resposta a uma consulta. Uma patente do Google concedida recentemente descreve como o Google pode estar respondendo a perguntas que surgem nos resultados da pesquisa de vídeo. A patente nos diz que o objetivo por trás dela é “identificar vídeos ou suas partes que sejam relevantes para os termos de pesquisa”.

O algoritmo por trás da patente tenta resolver um problema que é descrito em detalhes na descrição da patente.

O que isso nos diz é que as pessoas que usam "sites de hospedagem de mídia" geralmente navegam ou pesquisam esse conteúdo de mídia hospedado, como vídeos, tentando usar palavras-chave ou termos de pesquisa em consultas para encontrar "metadados textuais que descrevem o conteúdo de mídia". O que se entende por “metadados textuais” pode incluir:

  • Títulos de arquivos de mídia
  • Resumos descritivos do conteúdo de mídia

A patente explica por que isso pode ser um problema. Isso nos diz que esses metadados textuais muitas vezes não podem ser representativos de todo o conteúdo do vídeo, especialmente se um vídeo for muito longo e tiver uma variedade de cenas.

Normalmente, uma descrição que acompanha um vídeo é bastante curta e não descreve todas as cenas em um vídeo. O que isso pode significar é que um vídeo que pode ser o que um pesquisador está procurando pode não ser retornado em resposta a uma pesquisa de palavras-chave que podem descrever tais cenas. Como a patente nos diz:

Assim, os motores de busca convencionais muitas vezes não conseguem retornar o conteúdo de mídia mais relevante para a pesquisa do usuário

Outro problema com a maioria dos sites de hospedagem de mídia ocorre por causa de uma grande quantidade de conteúdo de mídia hospedado, uma consulta de pesquisa pode retornar centenas ou mesmo milhares de vídeos que respondem à consulta do usuário.

Isso pode significar que um usuário pode ter problemas para decidir quais resultados da pesquisa de vídeo são mais relevantes.

Para tornar mais fácil para alguém decidir qual vídeo pode ser mais relevante, um site pode apresentar esses resultados de pesquisa com imagens em miniatura

Freqüentemente, as imagens em miniatura de vídeos são um quadro predeterminado do arquivo de vídeo (possivelmente o primeiro quadro, o central ou o último).

Isso pode ser um problema porque as miniaturas selecionadas dessa forma geralmente não representam o conteúdo do vídeo. E essa miniatura pode não ser relevante para a consulta de pesquisa do usuário. Se não for, o usuário pode não ser capaz de avaliar quais dos muitos resultados da pesquisa são mais relevantes.

Devido a esses problemas com os resultados da pesquisa de vídeo, esta patente tenta fornecer métodos aprimorados de localização e apresentação dos resultados da pesquisa de vídeo para permitir que um usuário avalie facilmente a relevância desses vídeos.

Resultados de pesquisa de vídeo aprimorados

Esta abordagem de resultados de pesquisa de vídeo funciona para encontrar e apresentar resultados de vídeo que respondem a uma consulta de palavra-chave do usuário. Este sistema:

  • Recebe uma consulta de palavra-chave de um pesquisador
  • Seleciona um vídeo com conteúdo relevante para a consulta de palavra-chave
  • Escolhe um quadro do vídeo que é representativo do conteúdo do vídeo usando um índice de vídeo que armazena pontuações de associação de palavras-chave entre quadros de vários vídeos e palavras-chave associadas aos quadros de vídeo
  • O quadro selecionado é mostrado como uma miniatura do vídeo

Como este sistema usa um modelo aprendido por máquina para retornar os resultados da pesquisa de vídeo

Este sistema faz isso por meio de:

  • Criação de um índice de vídeo pesquisável com um modelo aprendido por máquina das relações entre recursos de quadros de vídeo e palavras-chave descritivas do conteúdo de vídeo
  • Receber um conjunto de dados de treinamento rotulado que inclui um conjunto de itens de mídia (por exemplo, imagens ou clipes de áudio) junto com uma ou mais palavras-chave descritivas do conteúdo desses itens de mídia
  • Extração de recursos que caracterizam o conteúdo dos itens de mídia
  • Aprendizagem correlações entre recursos específicos e as palavras-chave descritivas do conteúdo
  • Criação de um índice de vídeo que mapeia quadros de vídeos em um banco de dados de vídeo para palavras-chave com base em recursos dos vídeos e o modelo aprendido por máquina

palavras-chave dos resultados da pesquisa de vídeo

A patente nos diz que a vantagem de usar o processo desta patente é que este sistema de hospedagem de vídeo encontra e apresenta resultados de pesquisa com base no conteúdo real dos vídeos, em vez de depender apenas de metadados textuais encontrados perto dos vídeos. Ele permite que um pesquisador avalie melhor a relevância dos vídeos a partir dos resultados da pesquisa.

Esta patente de resultados de pesquisa de vídeo pode ser encontrada em:

Seleção de imagem baseada em relevância
Inventores: Gal Chechik e Samy Bengio
Cessionário: Google LLC
Patente dos EUA: 10.614.124
Concedido: 7 de abril de 2020
Arquivado: 15 de abril de 2015

Resumo

Um sistema, meio de armazenamento legível por computador e método implementado por computador apresenta resultados de pesquisa de vídeo que respondem a uma consulta de palavra-chave do usuário. O sistema de hospedagem de vídeo usa um processo de aprendizado de máquina para aprender um modelo de palavra-chave de recurso associando recursos de conteúdo de mídia a partir de um conjunto de dados de treinamento rotulado com palavras-chave descritivas de seu conteúdo. O sistema usa o modelo aprendido para fornecer resultados de pesquisa de vídeo relevantes para uma consulta de palavra-chave com base nos recursos encontrados nos vídeos. Além disso, o sistema determina e apresenta uma ou mais imagens em miniatura representativas do vídeo usando o modelo aprendido

Resultados da pesquisa de vídeos

Quando o Google usa essa abordagem, ele presta atenção a todas as cenas de um vídeo. Mesmo um vídeo longo, incluindo uma cena de corrida de carro, pode não ser descrito nos metadados que acompanham o vídeo. A patente nos diz que:

Por exemplo, se o usuário inserir a consulta de pesquisa "corrida de carros", o mecanismo de pesquisa de vídeo pode encontrar e retornar uma cena de corrida de carro de um filme, mesmo que a cena possa ser apenas uma pequena parte do filme que não está descrita no metadados textuais.

corrida de carros de pesquisa de vídeo

O processo descrito nesta patente não requer que alguém faça nada de especial ou diferente. Significaria apenas que o Google poderia fazer um trabalho melhor ao retornar vídeos que possam conter conteúdo que um pesquisador possa estar procurando, como uma cena de corrida de carro de um filme.

Para fazer isso, um mecanismo de busca de vídeo pode selecionar uma imagem em miniatura ou um conjunto de imagens em miniatura para exibir com cada resultado de pesquisa recuperado.

Essa imagem em miniatura pode ser um quadro de imagem que representa o conteúdo audiovisual do vídeo e também responde à consulta do usuário. Pode ajudar o pesquisador a determinar a relevância do resultado da pesquisa.

Um mecanismo de anotação de vídeo pode anotar quadros ou cenas de vídeo de um banco de dados de vídeo com palavras-chave relevantes para o conteúdo audiovisual dos quadros ou cenas e armazena essas anotações no índice de anotação de vídeo. Isso é o que seria pesquisado quando um pesquisador estivesse procurando um resultado.

A patente fornece muito mais detalhes sobre como o conteúdo de um vídeo pode ser indexado com base em palavras-chave que podem ser usadas para anotar quadros do vídeo.

Esse processo pode significar que vídeos mais relevantes podem ser retornados para consultas do pesquisador com base no conteúdo real desses vídeos do que apenas metadados textuais que acompanham um vídeo.

Se você enviar vídeos para sites como o YouTube, pode testar a pesquisa do Google para ver se está retornando esses vídeos com base em mais do que apenas os metadados que os acompanham