Wie Google Bilder mit Suchergebnissen verknüpfen kann

Veröffentlicht: 2017-04-07

Ein Presseausweis

Wie Bilder möglicherweise für Suchergebnisse ausgewählt werden

Vor einigen Jahren starteten einige ehemalige Mitarbeiter von Google (zumindest einer, der inzwischen zurückgekehrt ist) eine Suchmaschine mit dem Namen Cuil, die zu Beginn als Google-Killer bezeichnet wurde. Es wurde dafür bekannt, Bilder mit Suchergebnissen anzuzeigen, und diese Bilder waren nicht immer gut ausgewählt oder genau – In diesem Blog-Post finden Sie ein Beispiel für Kritik an Bildern in Suchergebnissen von Cuil: What's the deal with Cuil?.

Google zeigt seit Jahren Bilder neben Nachrichtenergebnissen an. Wie haben sie es vermieden, die Fehler zu machen, die Cuil mit ihren Bildern machte? Google wurde diese Woche ein Patent erteilt, in dem einige der Maßnahmen erörtert werden, mit denen die Bilder, die in ihren Nachrichtenergebnissen angezeigt werden, genauer werden.

Ganz oben in der Beschreibung des Patents erzählen sie uns, warum sie Bilder mit Nachrichtenergebnissen zeigen und was eine der Herausforderungen dabei ist:

Bei Nachrichtendokumenten kann es für Benutzer von Vorteil sein, ein Bild in Verbindung mit den Nachrichtendokumenten zu sehen. Häufig enthalten Nachrichtendokumente jedoch mehrere Bilder, von denen einige möglicherweise keinen Bezug zum Thema der Nachrichtendokumente haben. Dies erschwert die automatische Auswahl geeigneter Bilder für die Nachrichtendokumente.

Sie geben uns eine Zusammenfassung ihres Ansatzes, um genaue und hilfreiche Bilder für die neuen Ergebnisse zu verwenden, die sie zeigen:

Gemäß einem Aspekt, der mit den Prinzipien der Erfindung übereinstimmt, umfasst ein Verfahren das Identifizieren von Bildern, die mit einem Dokument verknüpft sind, das Filtern der Bilder, um einen Satz von Kandidatenbildern zu erzeugen, das Erfassen von Untertiteln, die den Kandidatenbildern zugeordnet sind, und das Auswählen eines der zu assoziierenden Kandidatenbilder mit dem Dokument basierend auf den erkannten Untertiteln.

Dieses neu erteilte Patent ist:

Bildauswahl für die Nachrichtensuche
Erfinder: Hong Zhou, Srdjan Mitrovic, Krishna Bharat, Michael Schmitt und Michael Curtiss
Rechtsnachfolger: Google Inc.
US-Patent 9,613,061
Bewilligt: ​​4. April 2017
Gespeichert: 28. Mai 2014

Abstrakt

Ein System identifiziert ein erstes Dokument, das mehrere erste Bilder enthält, identifiziert ein zweites Dokument, das viele zweite Bilder enthält, und bildet einen Cluster basierend auf einer Beziehung zwischen dem ersten Dokument und dem zweiten Dokument. Das System identifiziert eine erste Bildunterschrift, die einem der ersten Bilder zugeordnet ist, identifiziert eine zweite Bildunterschrift, die einem der zweiten Bilder zugeordnet ist, wählt eines der ersten Bilder eines der zweiten Bilder als repräsentatives Bild für den Cluster basierend auf der ersten Bildunterschrift aus oder die zweite Bildunterschrift und ordnet das repräsentative Bild dem Cluster zu.

Nachrichten Crawling-Einheit

Das Patent informiert uns über das Verhalten einer „News Crawling Unit“, was ein wenig gelogen klingt, wie wir uns einen nachrichtenorientierten Googlebot vorstellen könnten, der sich hauptsächlich auf das Crawlen von Nachrichtendokumenten konzentriert. Es kann zu gezielten Crawls des Webs gehen, die mit URLs beginnen, die es mit Nachrichtenquellen in Verbindung bringen kann. Es würde Bilder auf diesen Seiten aufnehmen, um sie in Nachrichten zu integrieren:

Die Nachrichten-Crawling-Einheit kann auch die Bilder basierend auf ihren extrahierten Adressen crawlen und die Bilder und andere Informationen bezüglich der Bilder speichern. Zum Beispiel können Nachrichten-Crawling-Einheiten zeitliche Informationen und Referenzzählinformationen bezüglich der Bilder erhalten. Die zeitlichen Informationen können zum Identifizieren von "Stockbildern" nützlich sein (dh Bilder, die in mehreren Nachrichtendokumenten verwendet werden, die sich auf dasselbe Thema beziehen). Stock-Bilder können sich als gute Kandidatenbilder qualifizieren. Die Referenzzählinformationen können zum Identifizieren von Bildern nützlich sein, die durch mehrere Nachrichtendokumente auf demselben Host verlinkt sind, aber nicht direkt mit den Themen der Nachrichtendokumente zusammenhängen, wie beispielsweise Bilder von Kolumnisten oder Nachrichtenquellen-bezogene Symbole. Es kann festgestellt werden, dass Bilder mit hohen Referenzzahlen keine guten Kandidatenbilder ergeben.

Das gibt uns einen ersten Eindruck davon, wie Google die Bilder auswählen kann, die wir sehen, die Nachrichten begleiten. Das Patent erklärt uns weiter, wie es gute Kandidatenbilder von Bildern trennen kann, die möglicherweise keine gute Wahl für die Anzeige in Suchergebnissen sind, einschließlich seltsam geformter und formatierter Bilder oder Bilder, die nichts mit dem Thema der Quellnachrichtendokumente zu tun haben, die sie sind in der Nähe, wie Bilder im Zusammenhang mit Anzeigen oder Kolumnisten.

Das Patent sagt uns auch, dass Bilder unter einer bestimmten Abmessungsgröße oder einem bestimmten Seitenverhältnis (was sie möglicherweise zu groß oder zu schmal macht) auch als Kandidatenbild (ein Kandidat für die Anzeige in Nachrichtenergebnissen) ausgeschlossen werden können.

Uns wird auch mitgeteilt, dass ein Bild, das einen Link enthält, als Kandidat ausgeschlossen werden kann, da es sich bei verlinkten Bildern oft um Werbung handelt.

Bilder, die an einem anderen Ort als dem der Nachrichtenquelle gehostet werden, können ebenfalls als Kandidatenbilder ausgeschlossen werden, da es sich möglicherweise um Werbung handelt, es sei denn, sie stammen aus einem Content Delivery Network.

Bildunterschriften

Wenn Bilder gecrawlt werden, können Informationen über die Bildunterschriften erkannt werden, da dies gute Beschreibungen von Bildern sein können, und sagen, ob das Bild möglicherweise mit dem Thema des Quellnachrichtendokuments in Zusammenhang steht.

Wenn ein Bild und ein Text zusammen in HTML-Tags erfasst werden, beispielsweise in einer Tabellenzelle, kann dieser Text dem Bild zugeordnet werden. Ebenso könnte der Alt-Text mit dem Bild verknüpft und als Alt-Text für das Bild verwendet werden, wenn es als Nachrichtenergebnis verwendet wird.

Das Patent sagt uns, dass einige Tests in alternativem Text für ein Bild analysiert werden könnten, um zu sehen, ob er „Gift“-Wörter enthält, z das Nachrichtendokument. Wenn der Alternativtext keine Giftwörter enthält, kann er als Bildunterschrift verwendet werden.

Wenn sich das Bild in einem HTML-Container wie einer Tabellenzelle mit Text befindet, kann dieser Text als Bildunterschrift (oder als Text aus einer benachbarten Zelle) verwendet werden.

Wenn dieser Text, der einen HTML-Container teilt, einen bestimmten Schwellenwert überschreitet oder zu sperrig ist, wird er möglicherweise nicht als Bildunterschrift betrachtet, da er möglicherweise Teil des Nachrichtendokuments ist.

Bild-Scores

Das Patent sagt uns, dass Bildbewertungen für jedes der Kandidatenbilder basierend auf bestimmten Faktoren erstellt werden können, wie zum Beispiel:

  • Bildgröße
  • Abstand zum Titel des Nachrichtendokuments
  • eine Überlappung zwischen der Bildunterschrift und dem Schwerpunkt des Nachrichtendokuments

Zusätzliche Filter

Uns wird auch gesagt, dass einige andere Filter verwendet werden können, um zu entscheiden, ob ein Bild aus einer Nachrichtenquelle diese Nachricht in den Nachrichtenergebnissen begleiten soll. Diese könnten umfassen:

  • Bilder mit Text
  • Bilder, die eher wie Cliparts aussehen, im Gegensatz zu Fotografien
  • Bilder, die alle die gleiche Farbe haben
  • andere Kriterien

Bilder auf Cluster-Ebene

Neue Themen werden oft in Cluster von Dokumenten zu diesen Themen unterteilt.

Das Patent sagt uns, dass Bilder innerhalb eines Clusters Themen zugeordnet werden können und das Bild mit dem höchsten Rang innerhalb eines Themenclusters basierend auf dem Rang des Quellnachrichtendokuments innerhalb dieses Clusters bestimmt werden kann – je höher das Nachrichtendokument innerhalb von a . eingestuft wird Cluster, „je wahrscheinlicher sein Bild repräsentativ für den Cluster ist.“

Uns wird auch gesagt, dass die Wörter in der Bildunterschrift möglicherweise betrachtet werden, und je öfter Wörter in der Bildunterschrift im Dokumentkörper des Clusters vorkommen, desto wahrscheinlicher ist es, dass das Bild mit der Thema des Clusters.

Weitere Anwendungen

Ich habe einige Patente gesehen, bei denen ein oder mehrere Sätze am Ende des Patents mehr Bedeutung haben könnten, als man erwarten könnte. Es gibt einen Satz wie diesen in diesem Patent, wo es uns sagt:

Obwohl im Kontext von Nachrichtensuchen beschrieben, können Systeme und Verfahren, die mit den Prinzipien der Erfindung übereinstimmen, auch auf Nicht-Nachrichtensuchen angewendet werden, wie beispielsweise Produktsuchen.

Es hört sich so an, als ob es keine schlechte Idee wäre, darüber nachzudenken, wie Google einige der im Patent beschriebenen Methoden verwenden könnte, um die Verknüpfung von Bildern mit anderen Suchergebnissen als nur der News-Suche anzuwenden. Ein bisschen wie Cuil war – aber wahrscheinlich besser als Cuil war.