Cómo puede Google asociar imágenes con resultados de búsqueda

Publicado: 2017-04-07

Un pase de prensa

Cómo se pueden elegir las imágenes para los resultados de búsqueda

Hace unos años, algunos ex empleados de Google (al menos uno que ha regresado desde entonces) iniciaron un motor de búsqueda con el nombre Cuil, que fue llamado un asesino de Google cuando comenzó. Se hizo conocido por mostrar imágenes con resultados de búsqueda, y esas imágenes no siempre estaban bien elegidas o eran precisas. Consulte esta publicación de blog para ver un ejemplo de críticas a las imágenes en los resultados de búsqueda de Cuil: ¿Cuál es el problema con Cuil?

Google ha estado mostrando imágenes junto a los resultados de las noticias durante años. ¿Cómo han evitado cometer el tipo de errores que Cuil estaba cometiendo con sus imágenes? Esta semana se otorgó una patente a Google que analiza algunas de las cosas que hacen para que las imágenes que aparecen en sus resultados de noticias sean más precisas.

Hacia la parte superior de la descripción de la patente, nos dicen por qué muestran imágenes con resultados de noticias y cuál es uno de los desafíos de hacerlo:

En el caso de los documentos de noticias, los usuarios pueden encontrar beneficioso ver una imagen junto con los documentos de noticias. A menudo, sin embargo, los documentos de noticias incluyen varias imágenes, algunas de las cuales pueden no estar relacionadas con el tema de los documentos de noticias. Esto dificulta la selección automática de imágenes apropiadas para los documentos de noticias.

Nos dan un resumen del enfoque que emprenden para intentar utilizar imágenes precisas y útiles en los nuevos resultados que muestran:

De acuerdo con un aspecto consistente con los principios de la invención, un método incluye identificar imágenes asociadas con un documento, filtrar las imágenes para crear un conjunto de imágenes candidatas, detectar leyendas asociadas con las imágenes candidatas y seleccionar una de las imágenes candidatas para asociarlas. con el documento basado en los subtítulos detectados.

Esta nueva patente concedida es:

Selección de imágenes para búsqueda de noticias
Inventores: Hong Zhou, Srdjan Mitrovic, Krishna Bharat, Michael Schmitt y Michael Curtiss
Cesionario: Google Inc.
Patente de EE. UU. 9,613,061
Concedido: 4 de abril de 2017
Archivado: 28 de mayo de 2014

Abstracto

Un sistema identifica un primer documento que incluye varias primeras imágenes, identifica un segundo documento que incluye muchas segundas imágenes y forma un grupo basado en una relación entre el primer documento y el segundo documento. El sistema identifica un primer pie de foto asociado con una de las primeras imágenes, identifica un segundo pie de foto asociado con una de las segundas imágenes, selecciona una de las primeras imágenes de una de las segundas imágenes como una imagen representativa para el grupo basado en el primer pie de foto. o el segundo título, y asocia la imagen representativa con el grupo.

Unidad de rastreo de noticias

La patente nos habla del comportamiento de una "Unidad de rastreo de noticias", lo que suena un poco mentira sobre cómo podríamos imaginar que se comportaría un robot de Google orientado a las noticias si se enfocara principalmente en rastrear documentos de noticias. Puede continuar con rastreos enfocados de la web que comienzan con URL que puede asociar con fuentes de noticias. Capturaría imágenes en esas páginas para incluirlas en las noticias:

La unidad de rastreo de noticias también puede rastrear las imágenes basándose en sus direcciones extraídas y almacenar las imágenes y otra información relacionada con las imágenes. Por ejemplo, las unidades de rastreo de noticias pueden obtener información temporal e información de recuento de referencias relacionada con las imágenes. La información temporal puede ser útil para identificar "imágenes de archivo" (es decir, imágenes que se utilizan en varios documentos de noticias relacionados con el mismo tema). Las imágenes de archivo pueden calificar como buenas imágenes candidatas. La información del recuento de referencias puede ser útil para identificar imágenes que están vinculadas por varios documentos de noticias en el mismo host, pero que no están directamente relacionadas con los temas de los documentos de noticias, como imágenes de columnistas o íconos relacionados con fuentes de noticias. Se puede determinar que las imágenes con recuentos de referencia altos no son buenas imágenes candidatas.

Eso nos da una idea de cómo Google puede elegir las imágenes que vemos que acompañan a las noticias. La patente continúa diciéndonos cómo se pueden clasificar las imágenes candidatas buenas de las imágenes que podrían no ser buenas opciones para mostrar en los resultados de búsqueda, incluidas imágenes con formas y formatos extraños o que no están relacionadas con el tema de los documentos de noticias fuente que son. cerca, como imágenes relacionadas con anuncios o columnistas.

La patente también nos dice que las imágenes por debajo de un cierto tamaño de dimensión o relación de aspecto (lo que posiblemente sea demasiado alto o demasiado estrecho) también pueden excluirse como una imagen candidata (una candidata para mostrarse en los resultados de las noticias).

También se nos dice que una imagen que incluye un enlace puede descartarse como candidata porque las imágenes enlazadas suelen ser anuncios.

Las imágenes alojadas en un lugar distinto al de la fuente de noticias también pueden descartarse como imágenes candidatas porque podrían ser anuncios a menos que provengan de una red de distribución de contenido.

Leyendas de imagen

Cuando se rastrean imágenes, es posible que se detecte información sobre los títulos de las imágenes porque pueden ser buenas descripciones de las imágenes e indicar si la imagen puede estar relacionada con el tema del documento de noticias fuente.

Cuando una imagen y texto se capturan juntos dentro de etiquetas HTML, como dentro de una celda de tabla, ese texto puede estar asociado con la imagen. Del mismo modo, el texto alternativo podría asociarse con la imagen y usarse como texto alternativo para la imagen cuando se usa como resultado de una noticia.

La patente nos dice que algunas pruebas en texto alternativo para una imagen podrían analizarse para ver si contiene palabras "venenosas", como una palabra que podría identificar el nombre del autor de la imagen o palabras que no están relacionadas con el tema de el documento de noticias. Si el texto alternativo no contiene palabras tóxicas, puede usarse como título de la imagen.

Si la imagen está en un contenedor HTML, como una celda de tabla con texto, entonces ese texto podría usarse como título de la imagen (o texto de una celda vecina).

Si ese texto que comparte un contenedor HTML supera un cierto umbral o es demasiado voluminoso, es posible que no se considere un título porque es probable que forme parte del documento de noticias.

Puntajes de imagen

La patente nos dice que las puntuaciones de imagen para cada una de las imágenes candidatas pueden crearse en función de ciertos factores, como:

  • tamaño de la imagen
  • distancia al título del documento de noticias
  • una superposición entre el título de la imagen y el centroide del documento de noticias

Filtros adicionales

También se nos dice que se pueden usar algunos otros filtros para decidir si la imagen de una fuente de noticias debe acompañar esa noticia en los resultados de las noticias. Estos pueden incluir:

  • imágenes que contienen texto
  • imágenes que se parecen más a imágenes prediseñadas, en lugar de fotografías
  • imágenes que son todas del mismo color
  • otros criterios

Imágenes de nivel de clúster

Los temas nuevos a menudo se dividen en grupos de documentos sobre esos temas.

La patente nos dice que las imágenes pueden asociarse dentro de un grupo a temas, y la imagen de mayor rango dentro de un grupo de temas podría determinarse en función del rango del documento de noticias fuente dentro de ese grupo: cuanto más alto se clasifica el documento de noticias dentro de un grupo de temas. clúster, "es más probable que su imagen sea representativa del clúster".

También se nos dice que las palabras en el título de una imagen se pueden mirar, y la cantidad de veces que las palabras en el título de la imagen aparecen en el cuerpo de los documentos en el grupo, es más probable que la imagen esté relacionada con el tema del clúster.

Otras aplicaciones

He visto algunas patentes en las que una o más frases cerca del final de la patente podrían tener más significado para ellas de lo que cabría esperar. Hay una frase así en esta patente, donde nos dice:

Además, aunque se describen en el contexto de las búsquedas de noticias, los sistemas y métodos consistentes con los principios de la invención pueden aplicarse a búsquedas que no son de noticias, tales como búsquedas de productos.

Parece que no sería una mala idea pensar en cómo Google podría utilizar algunos de los métodos descritos en la patente para aplicar imágenes asociadas a los resultados de la búsqueda, además de la búsqueda de noticias. Algo parecido a Cuil, pero probablemente mejor que Cuil.