Как Google может связывать изображения с результатами поиска

Опубликовано: 2017-04-07

Пропуск для прессы

Как изображения могут быть выбраны для результатов поиска

Несколько лет назад некоторые бывшие сотрудники Google (по крайней мере, один из тех, кто с тех пор вернулся) запустили поисковую систему под названием Cuil, которую когда-то называли убийцей Google. Он стал известен тем, что показывал изображения с результатами поиска, и эти изображения не всегда были хорошо выбраны или точны - см. Это сообщение в блоге, где приведен пример критики изображений в результатах поиска от Cuil: Что такое Cuil ?.

Google уже много лет показывает изображения рядом с результатами новостей. Как им удалось избежать ошибок, которые Куил делал с их изображениями? На этой неделе Google был выдан патент, в котором обсуждаются некоторые вещи, которые они делают, чтобы изображения, которые появляются в их новостях, были более точными.

В верхней части описания патента они рассказывают нам о том, почему они показывают изображения с результатами новостей, и какова одна из проблем при этом:

В случае новостных документов пользователям может быть полезно видеть изображение в сочетании с новостными документами. Однако часто новостные документы включают несколько изображений, некоторые из которых могут не иметь отношения к теме новостных документов. Это затрудняет автоматический выбор подходящих изображений для новостных документов.

Они дают нам краткое изложение подхода, который они предпринимают, чтобы попытаться использовать точные и полезные изображения для новых результатов, которые они показывают:

Согласно одному аспекту, совместимому с принципами изобретения, способ включает в себя идентификацию изображений, связанных с документом, фильтрацию изображений для создания набора изображений-кандидатов, обнаружение подписей, связанных с изображениями-кандидатами, и выбор одного из изображений-кандидатов для связывания с документом на основе обнаруженных подписей.

Этот недавно выданный патент:

Выбор изображения для поиска новостей
Изобретатели: Хонг Чжоу, Срджан Митрович, Кришна Бхарат, Майкл Шмитт и Майкл Кертисс
Цессионарий: Google Inc.
Патент США 9,613,061
Выдано: 4 апреля 2017 г.
Подана: 28 мая 2014 г.

Абстрактный

Система идентифицирует первый документ, который включает в себя несколько первых изображений, идентифицирует второй документ, который включает в себя множество вторых изображений, и формирует кластер на основе взаимосвязи между первым документом и вторым документом. Система идентифицирует первую подпись, связанную с одним из первых изображений, идентифицирует вторую подпись, связанную с одним из вторых изображений, выбирает одно из первых изображений одного из вторых изображений в качестве репрезентативного изображения для кластера на основе первой подписи. или второй заголовок, и связывает репрезентативное изображение с кластером.

Блок сканирования новостей

Патент рассказывает нам о поведении «модуля сканирования новостей», что звучит немного неправдоподобно, как мы могли бы себе представить, как мог бы вести себя ориентированный на новости робот Googlebot, если бы он ориентировался в первую очередь на сканирование новостных документов. Он может выполнять целенаправленное сканирование Интернета, которое начинается с URL-адресов, которые могут быть связаны с источниками новостей. Он будет захватывать изображения на этих страницах для включения в новости:

Модуль сканирования новостей может также сканировать изображения на основе их извлеченных адресов и сохранять изображения и другую информацию, относящуюся к изображениям. Например, блоки сканирования новостей могут получать временную информацию и информацию счетчика ссылок, относящуюся к изображениям. Временная информация может быть полезна для идентификации «стоковых изображений» (т. Е. Изображений, которые используются в нескольких новостных документах, относящихся к одной и той же теме). Стандартные изображения могут считаться хорошими изображениями-кандидатами. Информация о количестве ссылок может быть полезна для идентификации изображений, которые связаны несколькими новостными документами на одном и том же хосте, но не связаны напрямую с темами новостных документов, например изображения обозревателей или значков, связанных с источником новостей. Изображения с большим количеством ссылок могут быть определены как плохие изображения-кандидаты.

Это дает нам представление о том, как Google может выбирать изображения, которые мы видим для сопровождения новостей. Далее в патенте рассказывается, как с его помощью можно отсортировать хорошие изображения-кандидаты от изображений, которые могут не подходить для показа в результатах поиска, включая изображения странной формы и форматирования или изображения, не связанные с темой исходных новостных документов, которыми они являются. рядом, например изображения, связанные с рекламой или обозревателями.

Патент также сообщает нам, что изображения ниже определенного размера или соотношения сторон (что делает его, возможно, слишком высоким или слишком узким) также могут быть исключены как изображение-кандидат (кандидат для показа в результатах новостей).

Нам также сообщили, что изображение, содержащее ссылку, может быть исключено в качестве кандидата, поскольку связанные изображения часто являются рекламой.

Изображения, размещенные не там, где размещен источник новостей, также могут быть исключены как изображения-кандидаты, поскольку они могут быть рекламными объявлениями, если они не поступают из сети доставки контента.

Подписи к изображениям

При сканировании изображений может быть обнаружена информация о подписях к изображениям, поскольку они могут быть хорошими описаниями изображений и сообщать, может ли изображение быть связано с темой исходного новостного документа.

Когда изображение и текст захватываются вместе в тегах HTML, например в ячейке таблицы, этот текст может быть связан с изображением. Аналогичным образом, альтернативный текст можно связать с изображением и использовать в качестве замещающего текста для изображения при использовании в качестве результата новостей.

Патент сообщает нам, что некоторые тесты в альтернативном тексте для изображения могут быть проанализированы, чтобы увидеть, содержит ли он «ядовитые» слова, такие как слово, которое может идентифицировать имя автора изображения или слова, которые не имеют отношения к теме новостной документ. Если альтернативный текст не содержит ядовитых слов, его можно использовать в качестве заголовка изображения.

Если изображение находится в HTML-контейнере, таком как ячейка таблицы с текстом, то этот текст может использоваться в качестве заголовка изображения (или текста из соседней ячейки).

Если этот текст, совместно использующий контейнер HTML, превышает определенный порог или слишком объемный, его нельзя рассматривать как заголовок, поскольку есть вероятность, что он может быть частью новостного документа.

Оценка изображений

Патент сообщает нам, что оценки изображения для каждого из изображений-кандидатов могут быть созданы на основе определенных факторов, таких как:

Размер изображения
расстояние до заголовка новостного документа
перекрытие между заголовком изображения и центроидом новостного документа

Дополнительные фильтры

Нам также сообщили, что могут использоваться некоторые другие фильтры, чтобы решить, должно ли изображение из источника новостей сопровождать эту новость в результатах новостей. Они могут включать:

изображения, содержащие текст
изображения, которые больше похожи на клип-арт, чем на фотографии
изображения одного цвета
другие критерии

Изображения на уровне кластера

Новые темы часто разбиваются на группы документов по этим темам.

Патент сообщает нам, что изображения могут быть связаны в кластере с темами, и изображение с наивысшим рейтингом в тематическом кластере может быть определено на основе ранга исходного новостного документа в этом кластере - тем выше рейтинг новостного документа в кластер, «тем более вероятно, что его изображение может быть репрезентативным для кластера».

Нам также говорят, что слова в подписи к изображению могут быть просмотрены, и чем больше раз слова в подписи к изображению появляются в тексте документов в кластере, тем более вероятно, что изображение связано с тема кластера.

Дальнейшие приложения

Я видел несколько патентов, в которых одно или несколько предложений в конце патента могли иметь для них большее значение, чем можно было ожидать. В этом патенте есть подобное предложение, в котором говорится:

Кроме того, хотя они описаны в контексте поиска новостей, системы и методы, согласующиеся с принципами изобретения, могут применяться к поискам, не связанным с новостями, таким как поиск продуктов.

Похоже, было бы неплохо подумать о том, как Google может использовать некоторые из методов, описанных в патенте, для применения связывания изображений с результатами поиска, помимо поиска по новостям. Вроде как Куил - но, вероятно, лучше, чем Куил.