Googleは機械学習を使用して動画検索結果を返しますか?
公開: 2020-04-15ビデオ検索結果の問題
検索者に問題を引き起こす領域は、クエリに応答してビデオを探している場合です。 最近付与されたGoogleの特許は、ビデオ検索結果を表示するクエリにGoogleがどのように応答するかを説明しています。 この特許は、その背後にある目的は「検索用語に関連するビデオまたはその部分を特定すること」であると述べています。
特許の背後にあるアルゴリズムは、特許の説明で詳細に説明されている問題を解決しようとします。
「メディアホスティングウェブサイト」を使用している人は、通常、クエリでキーワードや検索用語を使用して「メディアコンテンツを説明するテキストメタデータ」を見つけようとすることで、動画などのホストされているメディアコンテンツを閲覧または検索します。 「テキストメタデータ」の意味は次のとおりです。
- メディアファイルのタイトル
- メディアコンテンツの説明的な要約
この特許は、これが問題になる理由を説明しています。 特にビデオが非常に長く、さまざまなシーンがある場合、そのようなテキストメタデータはビデオのコンテンツ全体を表すことができないことが多いことを示しています。
通常、ビデオに付随する説明はかなり短く、ビデオのすべてのシーンを説明しているわけではありません。 これが意味するのは、検索者が探しているものである可能性のあるビデオが、そのようなシーンを説明している可能性のあるキーワードの検索に応答して返されない可能性があるということです。 特許が私たちに告げているように:
したがって、従来の検索エンジンは、ユーザーの検索に最も関連性の高いメディアコンテンツを返さないことがよくあります。
ほとんどのメディアホスティングWebサイトでの別の問題は、大量のホストされたメディアコンテンツが原因で発生します。検索クエリは、ユーザークエリに応答して数百または数千ものビデオを返す場合があります。
これは、ユーザーがどの動画検索結果に最も関連性があるかを判断する際に問題が発生する可能性があることを意味している可能性があります。
どのビデオが最も関連性があるかを誰かが簡単に判断できるようにするために、Webサイトはそれらの検索結果にサムネイル画像を表示する場合があります
多くの場合、ビデオのサムネイル画像は、ビデオファイルの所定のフレーム(おそらく最初のフレーム、中央のフレーム、または最後のフレーム)です。
この方法で選択されたサムネイルは、ビデオのコンテンツを表していないことが多いため、これは問題になる可能性があります。 また、そのサムネイルはユーザーの検索クエリに関連していない可能性があります。 そうでない場合、ユーザーは多くの検索結果のどれが最も関連性が高いかを評価できない可能性があります。
ビデオ検索結果に関するこれらの問題のために、この特許は、ユーザーがそれらのビデオの関連性を容易に評価できるように、ビデオ検索結果を見つけて提示する改善された方法を提供しようとしています。
改善されたビデオ検索結果
このビデオ検索結果アプローチは、ユーザーのキーワードクエリに応答するビデオ結果を見つけて表示するために機能します。 このシステム:
- 検索者からキーワードクエリを受信します
- キーワードクエリに関連するコンテンツを含む動画を選択します
- 複数のビデオのフレームとビデオフレームに関連付けられたキーワードの間のキーワード関連付けスコアを格納するビデオインデックスを使用して、ビデオのコンテンツを表すビデオからフレームを選択します
- 選択したフレームがビデオのサムネイルとして表示されます
このシステムが機械学習モデルを使用して動画検索結果を返す方法
このシステムはこれを次のように行います。
- ビデオフレームの機能とビデオコンテンツを説明するキーワードとの関係の機械学習モデルを使用して、検索可能なビデオインデックスを作成する
- メディアアイテムのセット(画像やオーディオクリップなど)と、それらのメディアアイテムのコンテンツを説明する1つ以上のキーワードを含むラベル付きトレーニングデータセットを受信する
- メディアアイテムのコンテンツを特徴付ける特徴の抽出
- 特定の機能とコンテンツを説明するキーワードとの相関関係を学習する
- ビデオデータベース内のビデオのフレームを、ビデオの機能と機械学習モデルに基づいてキーワードにマッピングするビデオインデックスを作成する


この特許は、この特許のプロセスを使用する利点は、このビデオホスティングシステムが、ビデオの近くにあるテキストメタデータだけに依存するのではなく、ビデオの実際のコンテンツに基づいて検索結果を見つけて表示することです。 これにより、検索者は検索結果から動画の関連性をより適切に評価できます。
このビデオ検索結果の特許は次の場所にあります。
関連性に基づく画像選択
発明者:ガル・チェチックとサミー・ベンジオ
譲受人:Google LLC
米国特許:10,614,124
付与:2020年4月7日
提出日:2015年4月15日
概要
システム、コンピューターで読み取り可能な記憶媒体、およびコンピューターで実装された方法は、ユーザーのキーワードクエリに応答してビデオ検索結果を表示します。 ビデオホスティングシステムは、機械学習プロセスを使用して、ラベル付けされたトレーニングデータセットからのメディアコンテンツの機能をコンテンツを説明するキーワードに関連付ける機能キーワードモデルを学習します。 システムは学習したモデルを使用して、ビデオで見つかった機能に基づいたキーワードクエリに関連するビデオ検索結果を提供します。 さらに、システムは、学習したモデルを使用して、ビデオを表す1つまたは複数のサムネイル画像を決定して提示します。
ビデオ検索結果のポイント
Googleがこのアプローチを使用する場合、ビデオ内のすべてのシーンに注意を払います。 カーレースのシーンを含む長いビデオでさえ、ビデオに付随するメタデータに記述されていない場合があります。 この特許は次のように述べています。
たとえば、ユーザーが検索クエリ「カーレース」を入力すると、動画検索エンジンは、シーンが映画の一部であり、映画の一部である場合でも、映画からカーレースのシーンを見つけて返すことができます。テキストメタデータ。

この特許に記載されているプロセスでは、誰かが特別なことや別のことをする必要はありません。 これは、映画のカーレースシーンのように、検索者が探している可能性のあるコンテンツを含む可能性のある動画をGoogleがより適切に返すことができることを意味します。
これを行うために、ビデオ検索エンジンは、取得された検索結果ごとに表示するサムネイル画像またはサムネイル画像のセットを選択する場合があります。
そのサムネイル画像は、ビデオの視聴覚コンテンツを表し、検索者のクエリに応答する画像フレームである可能性があります。 これは、検索者が検索結果の関連性を判断するのに役立ちます。
ビデオ注釈エンジンは、ビデオデータベースからのビデオのフレームまたはシーンに、フレームまたはシーンの視聴覚コンテンツに関連するキーワードで注釈を付け、これらの注釈をビデオ注釈インデックスに格納することができます。 これは、検索者が結果を探しているときに検索されるものです。
この特許は、ビデオのフレームに注釈を付けるために使用できるキーワードに基づいて、ビデオのコンテンツにインデックスを付ける方法について、より詳細に説明しています。
このプロセスは、動画に付随するテキストメタデータだけでなく、それらの動画の実際のコンテンツに基づいて、検索者のクエリに対してより関連性の高い動画を返すことができることを意味します。
YouTubeなどのサイトに動画を送信すると、Google検索をテストして、それらの動画に付随するメタデータだけでなく、それらの動画が返されるかどうかを確認できます。
