知識ベースの検索における関連エンティティスコア

公開: 2018-02-12

「完璧な検索エンジンは、あなたが何を意味するのかを正確に理解し、正確に何を返すのかを理解します。
あなたが欲しい。」 ラリーペイジ、検索のしくみ

ナレッジベースを使用してエンティティに関するクエリに回答する

3年前、「検索でナレッジベースエンティティを使用する方法」などのクエリを使用して検索する方法について書きました。「ロバートデュヴァルが、朝のナパームの匂いがどれだけ好きかを言うキャラクターを演じる映画は何ですか。。」有名な俳優が有名な行を言う映画の検索は、知識ベースから学習してクエリに答えることができるという事実を使用したGoogleの例です。注目のスニペットでは答えません。代わりに、いくつかのビデオに続いて、その質問に答える他のドキュメントが表示されます。

先月Googleに付与された特許は、クエリに応答するためにナレッジベースから学習した可能性のあるナレッジグラフからの情報にも注目しています。注目のスニペットとしてではなく、クエリ内のエンティティと関連するプロパティについて学習する検索結果。これは、同義語や意味的に関連する単語を理解するだけでなく、検索に関係するものに関するいくつかのプロパティを知ることを目的としたセマンティック検索です（Googleナレッジグラフは「文字列ではなく物」に関するものであるため、キーワードの一致だけではありません。クエリからドキュメント上の同じ（または関連する）キーワードへ。関連するエンティティスコアの概念も紹介します。

ナレッジグラフは、クエリに回答するためにエンティティ情報を収集します

はい、知識グラフは百科事典のようなものですが、それが存在する理由ではありません。検索結果でエンティティに関するクエリへの回答を支援できるように、エンティティについて学習しようとします

この新しい特許は、特定のエンティティに関する情報を使用してクエリに回答する方法を示しています。

いくつかの実装形態では、コンピュータ実装方法は、少なくとも１つのプロセッサ、少なくとも１つのエンティティ、およびそれぞれのプロパティによって少なくとも１つのエンティティに関連する関連エンティティを使用して、知識グラフで識別することを含む。コンピュータで実施される方法は、関連するエンティティのそれぞれについて、少なくとも１つのプロセッサを使用して、少なくとも１つのエンティティおよび関連するエンティティのそれぞれの１つに関連するそれぞれのプロパティに関連付けられた関連するエンティティのスコアを決定することを含む。コンピュータで実施される方法は、それぞれのプロパティごとに、そのそれぞれのプロパティに関連付けられた関連エンティティスコアに基づいて、少なくとも１つのプロセッサを使用してプロパティスコアを生成することを含む。コンピュータで実施される方法は、少なくとも１つのプロセッサを使用して生成し、生成されたプロパティスコアに基づいてソート可能なプロパティのデータ構造を格納させることを含み、データ構造は、クエリに応答してソートされた検索結果を提供するために使用される。

Googleに「ジョージ・ワシントンの測量士はどこにいたの？」のような質問をするとします。検索エンジンは、彼が軍隊に入る前に10代の測量士として行動した場所を詳細に示す検索結果を提供します。

ワシントンバージニアと呼ばれる町（それ自体が最初のワシントンと呼ばれる）は、若い頃に周辺地域を調査した17歳の人を記念しています。

検索結果と注目のスニペット

投稿で書いたように、検索結果と注目のスニペットの組み合わせを提供するいくつかのクエリに対する回答を見てきました。Googleはナレッジベースを検索エンジンと結婚させますか？ Googleは、検索結果、注目のスニペット、または構造化されたスニペットを使用してクエリに回答することについて、あまり多くの好みを示していません。

映画に関する質問への回答が非常に適切であると思われる場合があります。 XXXXの首都はどこかなど、地理に関する質問が好きです。大文字の場所は有用な情報になる可能性があるため、は注目のスニペットで地図を表示します。

Googleがエンティティに関する質問に回答するためにナレッジグラフをどのように使用するかについての特定のナレッジベースはありません

Googleがナレッジグラフをどのように使用しているかを示すナレッジベースはまだありません。私たちが持っている最も近いものは、このような特許であり、かなりの量の情報が含まれています。このセクションには、Googleがプロパティに関する情報をどのように扱うかについての概念とヒントが豊富に含まれていました。

特定のエンティティは、いくつかのタイプに関連付けられている場合があり、1つまたは複数のプロパティによって他の複数のエンティティに関連付けられている場合もあります。ここで使用されているように、エンティティとは、特異で、一意で、明確に定義され、区別できるものまたは概念です。たとえば、エンティティは、人、場所、アイテム、アイデア、トピック、抽象的な概念、具体的な要素、その他の適切なもの、またはそれらの任意の組み合わせである可能性があります。一部の実装では、検索結果にエンティティ参照を識別する結果が含まれます。本明細書で使用される場合、エンティティ参照は、エンティティを参照する識別子、例えば、テキスト、または他の情報である。たとえば、エンティティはジョージワシントンの物理的な実施形態である可能性がありますが、エンティティ参照はジョージワシントンを参照する抽象的な概念です。適切な場合、文脈に基づいて、本明細書で使用される用語エンティティは、エンティティ参照に対応することができ、本明細書で使用される用語エンティティ参照は、エンティティに対応することができることが理解される。いくつかの実装形態では、検索システムは、エンティティ参照に関連付けられたエンティティタイプを識別する場合がある。エンティティタイプは、データ構造内のエンティティ参照を識別するために使用される分類または分類の場合があります。たとえば、エンティティ参照「George Washington」は、エンティティタイプ「USPresident」、「Person」、および「MilitaryOfficer」に関連付けられている場合があります。プロパティは、エンティティ間の関係、つまり、あるエンティティが別のエンティティとどのように関連しているかを示します。エンティティに関連付けられている最も重要なプロパティは、そのタイプのどれに関心があるかによって異なります。たとえば、エンティティ「トムハンクス」の場合、ユーザーは検索結果に自分の映画や自分の演技に関するその他の情報を含めることができます。ただし、エンティティ「Albert Einstein」の場合、ユーザーは検索結果に彼の理論、技術論文、および物理学への貢献に関連するその他の情報を含めることができます。開示された技術は、重要な属性を決定するために使用され得、したがって、ユーザーがおそらく望むであろう検索結果を提供し得る。

知識ベースがセマンティック検索でどのように使用されるかについて、より多くの洞察を知りたいですか？この特許を読むことはあなたにとって価値があるかもしれません。グーグルは多くのサイトをウィキペディアやウィキデータを超えた有用な知識ベースであると考えていることを覚えておいてください。 IMDBやYahooFinanceなどの情報源を事実に関する有益な情報と見なす場合があります。

この特許を説明するために、私はジョージ・ワシントンを測量士として紹介することにしました。彼がティーンエイジャーとしてそれをしたことを知っている人はあまりいません！この役職が、後に軍の司令官や政治家のように彼が務めた役職で重要な役割を果たした可能性もあります。エンティティタイプとグラフ内の情報の理解に関する特許からの次の一節は、私の選択の図に影響を与えました。

組織データを表すノードは、知識グラフに含まれる場合があります。これらは、本明細書ではエンティティタイプノードと呼ばれることがある。本明細書で使用される場合、エンティティタイプノードは知識グラフ内のノードを参照することができ、エンティティタイプはエンティティタイプノードによって表される概念を参照することができる。エンティティタイプは、エンティティの特徴を定義する場合があります。例えば、エンティティタイプノードＹは、グラフが「エンティティＸはタイプＹである」という情報を表すように、以下でさらに説明される「ＩｓＡ」エッジまたはリンクによってエンティティノードＸに接続され得る。たとえば、エンティティノード「GeorgeWashington」はエンティティタイプノード「President」に接続できます。エンティティノードは、複数のエンティティタイプノードに接続できます。たとえば、「GeorgeWashington」はエンティティタイプノード「Person」およびエンティティタイプノード「MilitaryCommander」にも接続できます。

この特許を読んで理解することをお勧めします。検索エンジンがプロパティとそのさまざまな側面に関するクエリをキャプチャして返す方法を関連付けると役立つ場合があります。これは、物事に関する情報とそれらが互いにどのように関連しているかを考慮すると、はるかにセマンティックベースの検索です。クエリからドキュメントへのテキストの文字列の照合ではありません。むしろ、エンティティ、それらのタイプ、それらのプロパティ、およびそれらが他のエンティティとどのように関連しているかについて知ることに焦点を合わせます。

バージニアの丘を調査している若いワシントンについての映画を見たいです。私はグーグルで「測量士としてのジョージ・ワシントンについての映画はありますか？」と尋ねました。当時をカバーすることから始まったアニメーション機能のようです：ジョージワシントン将軍

将来コンテンツを作成するときに、関連エンティティスコアとプロパティスコアを使用しますか？

関連エンティティスコアとプロパティスコアは、将来考慮すべき重要な事項になりますか？この特許は、検索エンジンが次のようにそれらをどのように使用するかについてのヒントを提供します。

ステップ６０６は、プロパティに関連付けられた関連エンティティスコアに基づいて各プロパティのプロパティスコアを生成する１つまたは複数のプロセッサを含む。特定の各プロパティに関連付けられた関連エンティティスコアは、そのプロパティに対して組み合わせることができます。例えば、図１を参照する。図４に示されるように、関連エンティティ「フォレストガンプ」、「ビッグ」、および「プライベートライアンを救う」の関連エンティティスコアを合計して、プロパティ「映画が演じられた」の合計を与えることができる。例えば、０．８＋０．８＋０．８＝２．４。さらなる例では、関連するエンティティのスコアを加重和として組み合わせることができる。関連するエンティティスコアの任意の適切な組み合わせを使用して、プロパティスコアを生成できます。一部の実装では、1つ以上のタイプが別のエンティティタイプのサブタイプである場合があります。例えば、図５のデータ構造５５０を参照する。図５に示されるように、タイプ「アクター」は、エンティティタイプ「パーソン」のサブタイプであり得、これは、サブタイプに関連する親タイプと呼ばれ得る。いくつかのそのような実装では、親タイプについて、各サブタイプの各プロパティのプロパティスコアが親タイプの同じプロパティと合計される場合があります。例えば、図５のデータ構造５５０を参照する。図５に示すように、プロパティ「Movies acted in」は、タイプ「Actor」および「Person」に含まれるため、エンティティタイプ「Actor」のプロパティスコア9.0は、エンティティタイプ「Person」のプロパティスコア1.0に集約される場合があります。」 1つまたは複数のプロセッサは、サブタイプを組み込んだ後、親タイプ内のスコアを再正規化、スケーリング、重み付け、または変更する場合があります。

これを読んだ後、それはもう少し理にかなっているかもしれません。 Googleは、知識グラフを使用して、少なくとも3年間、検索結果を含む検索クエリに回答してきました。彼らもそれについてより洗練されてきています。 Googleが新しいことを試み、検索結果の表示方法をさらに実験するにつれて、進化し続ける可能性があります。