Comment Google peut associer des images aux résultats de recherche

Publié: 2017-04-07

Un laissez-passer de presse

Comment les images peuvent-être choisies pour les résultats de recherche

Il y a quelques années, certains anciens employés de Google (dont au moins un qui est revenu depuis) ont lancé un moteur de recherche portant le nom de Cuil, qui s'appelait Google-killer à ses débuts. Il est devenu connu pour montrer des images avec les résultats de recherche, et ces images n'étaient pas toujours bien choisies ou précises - Voir cet article de blog pour un exemple de critiques d'images dans les résultats de recherche de Cuil : Quel est le problème avec Cuil ?.

Google affiche des images à côté des résultats des actualités depuis des années. Comment ont-ils évité de commettre le genre d'erreurs que Cuil faisait avec leurs images ? Un brevet a été accordé à Google cette semaine, qui traite de certaines des choses qu'ils font pour rendre les images qui apparaissent dans leurs résultats d'actualités plus précises.

Vers le haut de la description du brevet, ils nous expliquent pourquoi ils montrent des images avec des résultats d'actualité, et quel est l'un des défis de le faire :

Dans le cas de documents d'actualité, les utilisateurs peuvent trouver avantageux de voir une image en association avec les documents d'actualité. Souvent, cependant, les documents d'actualité incluent plusieurs images dont certaines peuvent ne pas être liées au sujet des documents d'actualité. Cela rend difficile la sélection automatique des images appropriées pour les documents d'actualité.

Ils nous donnent un résumé de la démarche qu'ils entreprennent pour essayer d'utiliser des images précises et utiles dans les nouveaux résultats qu'ils montrent :

Selon un aspect cohérent avec les principes de l'invention, un procédé comprend l'identification d'images associées à un document, le filtrage des images pour créer un ensemble d'images candidates, la détection de légendes associées aux images candidates, et la sélection d'une des images candidates à associer avec le document en fonction des légendes détectées.

Ce brevet nouvellement délivré est :

Sélection d'images pour la recherche d'actualités
Inventeurs : Hong Zhou, Srdjan Mitrovic, Krishna Bharat, Michael Schmitt et Michael Curtiss
Cessionnaire : Google Inc.
Brevet américain 9 613 061
Accordé : 4 avril 2017
Déposé : 28 mai 2014

Résumé

Un système identifie un premier document qui comprend plusieurs premières images, identifie un deuxième document qui comprend de nombreuses deuxièmes images et forme un groupe sur la base d'une relation entre le premier document et le deuxième document. Le système identifie une première légende associée à l'une des premières images, identifie une deuxième légende associée à l'une des deuxièmes images, sélectionne l'une des premières images de l'une des deuxièmes images comme image représentative du groupe sur la base de la première légende ou le deuxième libellé, et associe l'image représentative au cluster.

Unité de recherche de nouvelles

Le brevet nous parle du comportement d'une « unité d'exploration d'actualités » qui sonne un peu comme un mensonge sur la façon dont nous pourrions imaginer qu'un Googlebot axé sur les actualités pourrait se comporter s'il se concentrait principalement sur l'exploration de documents d'actualités. Il peut effectuer des explorations ciblées du Web qui commencent par des URL qu'il peut associer à des sources d'actualités. Il capturerait des images sur ces pages pour les inclure dans les reportages :

L'unité d'exploration de nouvelles peut également explorer les images sur la base de leurs adresses extraites et stocker les images et d'autres informations relatives aux images. Par exemple, des unités d'exploration de nouvelles peuvent obtenir des informations temporelles et des informations de comptage de références relatives aux images. Les informations temporelles peuvent être utiles pour identifier des « images de stock » (c'est-à-dire des images qui sont utilisées dans plusieurs documents d'actualité relatifs au même sujet). Les images de stock peuvent être considérées comme de bonnes images candidates. Les informations de comptage de références peuvent être utiles pour identifier des images qui sont liées par plusieurs documents d'actualité sur le même hôte mais pas directement liées aux sujets des documents d'actualité, telles que des images de chroniqueurs ou des icônes liées à des sources d'actualités. Il peut être déterminé que les images avec des nombres de références élevés ne constituent pas de bonnes images candidates.

Cela nous donne donc une idée de la façon dont Google peut choisir les images que nous voyons qui accompagnent les reportages. Le brevet nous dit ensuite comment il peut trier les bonnes images candidates à partir d'images qui pourraient ne pas être de bons choix pour l'affichage dans les résultats de recherche, y compris des images de forme et de formatage étranges ou celles qui ne sont pas liées au sujet des documents d'actualité source qu'ils sont. à proximité, telles que des images liées à des publicités ou à des chroniqueurs.

Le brevet nous indique également que les images inférieures à une certaine taille de dimension ou à un certain rapport hauteur/largeur (ce qui la rend peut-être trop haute ou trop étroite) peuvent également être exclues en tant qu'image candidate (une candidate à afficher dans les résultats de l'actualité.)

On nous dit également qu'une image qui comprend un lien peut être écartée comme candidate car les images liées sont souvent des publicités.

Les images hébergées ailleurs que là où la source d'actualités est hébergée peuvent également être exclues en tant qu'images candidates, car elles peuvent être des publicités à moins qu'elles ne proviennent d'un réseau de diffusion de contenu.

Légendes des images

Lorsque les images sont explorées, des informations sur les légendes des images peuvent être détectées car elles peuvent être de bonnes descriptions d'images et indiquer si l'image peut être liée au sujet du document d'actualités source.

Lorsqu'une image et du texte sont capturés ensemble dans des balises HTML, comme dans une cellule de tableau, ce texte peut être associé à l'image. De même, le texte alternatif peut être associé à l'image et utilisé comme texte alternatif pour l'image lorsqu'il est utilisé comme résultat d'actualité.

Le brevet nous dit que certains tests de texte alternatif pour une image pourraient être analysés pour voir si elle contient des mots « empoisonnés », comme un mot qui pourrait identifier le nom de l'auteur de l'image ou des mots qui n'ont aucun rapport avec le sujet de le document d'actualité. Si le texte alternatif ne contient pas de mots empoisonnés, il peut alors être utilisé comme légende de l'image.

Si l'image se trouve dans un conteneur HTML tel qu'une cellule de tableau avec du texte, ce texte peut être utilisé comme légende de l'image (ou texte d'une cellule voisine.)

Si ce texte partageant un conteneur HTML dépasse un certain seuil ou est trop volumineux, il peut ne pas être considéré comme une légende car il est probable qu'il fasse partie du document d'actualité.

Notes d'images

Le brevet nous indique que les scores d'image pour chacune des images candidates peuvent être créés en fonction de certains facteurs, tels que :

taille de l'image
distance au titre du document d'information
un chevauchement entre la légende de l'image et le centroïde du document d'actualité

Filtres supplémentaires

On nous dit également que d'autres filtres peuvent être utilisés pour décider si l'image d'une source d'actualités doit accompagner cette actualité dans les résultats de l'actualité. Ceux-ci pourraient inclure:

images contenant du texte
images qui ressemblent plus à des images clipart, par opposition à des photographies
images qui sont toutes de la même couleur
autres critères

Images au niveau du cluster

Les nouveaux sujets sont souvent divisés en groupes de documents sur ces sujets.

Le brevet nous dit que les images peuvent être associées au sein d'un groupe à des sujets, et que l'image la mieux classée au sein d'un groupe de sujets peut être déterminée en fonction du rang du document d'actualité source au sein de ce groupe - plus le document d'actualité est classé haut dans un cluster, "plus son image est susceptible d'être représentative du cluster".

On nous dit également que les mots de la légende d'une image peuvent être regardés, et plus le nombre de fois où les mots de la légende de l'image apparaissent dans le corps des documents du cluster, plus il est probable que l'image soit liée au thème du cluster.

Autres applications

J'ai vu certains brevets où une ou plusieurs phrases vers la fin du brevet pourraient avoir plus de sens pour eux que ce à quoi on pourrait s'attendre. Il y a une phrase comme ça dans ce brevet, où elle nous dit :

En outre, bien qu'ils soient décrits dans le contexte de recherches d'actualités, des systèmes et des procédés compatibles avec les principes de l'invention peuvent s'appliquer à des recherches non liées à l'actualité, telles que des recherches de produits.

Il semble que ce ne serait pas une mauvaise idée de réfléchir à la manière dont Google pourrait utiliser certaines des méthodes décrites dans le brevet pour appliquer des images associées aux résultats de recherche autres que la recherche d'actualités. Un peu comme Cuil était – mais probablement mieux que Cuil était.