構造化データアクションとアノテーションを備えたGoogle画像

公開: 2017-06-17

Googleレンズ

昨年、私はグーグルの新しい視覚探索写真機能を説明するグーグルの新しい特許について書いた。 Androidの電話アプリの新機能に関する噂は、そのようなアプリに組み込まれているオブジェクトの輪郭認識検索機能を説明する特許を伴っていました。 GoogleのI / O 2017 Developer's Conferenceに到着し、GoogleがGoogleレンズと呼んでいるものを発表したとき、それはDejaVuに少し似ているように見えました。 その噂の機能はまだリリースされていませんが、まったく同じではありません。 少し異なり、興味深い構造化データアクションに焦点を当てているようです。

私はグーグルからの特許に目を光らせていました、しかし私はそれを逃しました、そしてパテントリーアップルの人々は月の初めからそれについて報告しました:

「グーグルレンズ」と呼ばれるグーグルの拡張現実カメラ機能の背後にある特許が米国特許庁にポップアップ

それを読んだ後、特許を詳しく調べる価値があると思いました。 この特許は、画像に含まれるコンテンツに基づいて行動を起こすことに焦点を当てていると述べています。

特許は次のとおりです。

スマートカメラのユーザーインターフェース
発明者:Teresa Ko、Adam Hartwig、Mikkel Crone Koser、Alexei Masterov、Andrews-Junior Kimbembe、Matthew J. Bridges、Paul Chang、David Petrou、Adam Berenzweig
米国特許出願:20170155850
付与:2017年6月1日
提出日:2017年2月9日

概要

本開示の実施は、シーンをキャプチャする画像の画像データを受信するアクション、シーンから決定される1つまたは複数のエンティティを説明するデータを受信するアクション、シーンから決定される1つまたは複数のエンティティ、1つに基づいて1つまたは複数のアクションを決定するアクションを含む。または複数のエンティティ。各アクションは、1つまたは複数のエンティティを検索した結果に基づいて少なくとも部分的に提供され、1つまたは複数のアクション要素を含むアクションインターフェイスを表示するための命令を提供します。各アクション要素は、それぞれのアクションの実行を誘導します。ビューファインダーに表示されているアクションインターフェイス。

画像に関連するアクション

画像内のコンテンツの検索に基づいてユーザーが実行できるアクションの例には、次のものがあります。

(1)画像やビデオなどのコンテンツの共有、
(2)1つ以上のアイテムを購入し、
(3)音楽、ビデオ、画像などのコンテンツのダウンロード、
(4)カレンダーへのイベントの追加など、イベントの追加アクション、および
(5)アルバム(写真アルバムなど)にコンテンツ(画像など)を追加するために実行できるアルバムへの追加アクション。

この特許は、バーコードなどの機械可読コードとは対照的に、画像内のデータを使用しています。 エンティティ認識プログラムを使用して、画像内で見つかったエンティティを認識する場合があります。 エンティティは、ハンバーガーや食べ物など、単なる人や場所ではなく、物である可能性があります。 特定のエンティティに関連付けられる可能性のあるアクションは、それらに関連付けられる注釈によって定義される場合があります。 特許は私達に告げています:

いくつかの例では、1つまたは複数の注釈が、1つまたは複数のエンティティの各エンティティに関連付けられている。 いくつかの例では、エンティティのセットを注釈エンジンに提供することができ、注釈エンジンはエンティティのセットを処理して注釈のセットを提供する。 いくつかの例では、注釈エンジンは、1つまたは複数のコンピューティングデバイス、例えば、デバイスおよび/またはサーバーシステムによって実行することができる1つまたは複数のコンピュータ実行可能プログラムとして提供される。 いくつかの実装形態では、エンティティ認識エンジンと注釈エンジンが組み合わされ、例えば、同じエンジンである。

画像で認識される可能性のあるエンティティに関連付けられる可能性のある注釈の1つのタイプは、検索関連のアクションです。

たとえば、エンティティには、画像データに示されているミュージシャンのバンドの名前である「史上最高のバンド」というテキストを含めることができます。 いくつかの例では、テキスト「史上最高のバンド」を検索エンジンへの検索クエリとして提供することができ、特定のバンドに関連付けられた検索結果を提供することができる。 検索結果の例には、ツアーの日付、アルバム、および/またはバンドに関連付けられた商品を含めることができます。これらの検索結果は、注釈として提供できます。

構造化データのアクションと画像

この特許は、「構造化されたデータグラフを持つ相互参照エンティティに基づいて注釈を提供できる可能性を指摘しています。 例:知識グラフ。」

この特許は、アクションがエンティティまたは注釈にマップされたときにアクションがどのように提供されるかについての3つの例を提供します。

(1)たとえば、コンサートなどのイベントに関連付けられているエンティティおよび/または注釈を、カレンダーおよび/または購入にイベントを追加するために実行できるイベント追加アクションにマッピングできます。イベントのチケットを購入する、アルバムを購入するなどのアクション。 したがって、イベントの追加アクションおよび/または購入アクションを1つまたは複数のイベントに含めることができます。

(2)別の例として、エンティティおよび/または注釈は、ユーザの画像アルバム、例えば、食品アルバムに対応することができ、コンテンツを追加するために実行することができるアルバムに追加アクション、例えば、画像にマッピングすることができる。 、アルバムに。 したがって、アクションは、ユーザ固有の情報、例えば、ユーザが画像に描かれているエンティティに関連する画像アルバムを持っているという知識に基づいて提供される。

(3)別の例として、エンティティおよび/または注釈は、例えば、ソーシャルネットワーキングサービス内のユーザの1つまたは複数の連絡先に対応することができ、画像を共有するために実行できる画像共有アクションにマッピングすることができる。連絡先。 したがって、アクションは、ユーザー固有の情報、例えば、ユーザーが通常、画像に描かれているコンテンツを特定の連絡先と共有するという知識に基づいて提供される。

この特許は他のいくつかの例も指摘しています。

画像データでキャプチャされた本は、表紙の画像、タイトル、要約、著者、発行日、ジャンルなど、その本に関連する構造化データ情報を返す場合があります。

画像データで表されるバンドは、バンドの画像、バンドメンバーのリスト、アルバムのリストなど、バンドに関連付けられた構造化データ情報を返します。

テイクアウト

Google I / Oプレゼンテーションでは、特定のビジネスの写真が撮影されたときに返されるビジネスに関する情報が表示されました。 これは、ビジネスに関する知識グラフ情報に基づいて、注釈からデータを返しているように聞こえます。 Googleは、あなたのビジネスがGoogleマイビジネスで確認された場合、検索結果であなたのビジネスの知識グラフを自動的に取得することを約束しません。 しかし、多くの場合、それは役立つようです。 Googleは、さまざまなエンティティに関連付けられた特定のアノテーションを持つように構造化データを設定する方法について、より多くの情報を公開する可能性が高いと思います。 過去数か月以内に紹介された同様のアイテムの画像検索結果など、人々が予期していなかった可能性のあるWebページから構造化データを使用する方法をGoogleが見つけていることを示しているようです。