Googleがクエリを処理する方法:エンティティ解決リソース
公開: 2017-07-18Googleは、クエリで表示されるエンティティを理解するためにエンティティ解決を実行します
Webは、人、場所、物に関する情報などのエンティティでいっぱいです。 検索エンジンは、エンティティ間の接続に関する知識を収集する場合があります。 プレゼンテーション「HowGoogleWorks」で、GoogleのPaul Haahrは、Googleがクエリに表示されるエンティティを識別しようとすると述べました。 彼のプレゼンテーションには、Webをクロールしてページ上のリンクの存在を確認するだけではなく、視聴することをお勧めします。
7月4日にGoogleに付与された特許は、クエリ内のエンティティの存在とそれらの理解に焦点を当てています。 これは、エンティティ解決と呼ばれるもの、またはクエリ内のエンティティが何を表すかに焦点を当てています。 特許を見てみると、特許出願人が特許とともに提出した参考文献の数に感銘を受け、読みたかったのです。 他の人とも共有する価値があると思いました。 特定のポイントを証明したり、特定のスタンスや意見を取り入れたりするのではなく、資料を読んで時間をかけて、エンティティの解決に関連する最新の論文や研究を見てくれる人を提供します。 私はこれらのいくつかを読みました、そしてもっと読むでしょう。 これらの論文のいくつかは、Googleの研究者によって共同執筆されています。 あなたがあなたを驚かせる何かを見つけたら、コメントでそれを共有してください。 クエリ内のエンティティを理解することは、そのプロセスがそれらのクエリをコンテキストに置くことができるため、非常に理にかなっています。 Googleがクエリを処理する方法を理解すると、ページの情報検索スコアやPageRankスコアを超えるアイデアが得られる可能性があります。 Googleは、クエリ内のエンティティの存在について、コンテキストをどのように調整していますか?
たとえば、ニューカッスルは、英国のニューカッスルアポンタイン、フットボール(サッカー)クラブのニューカッスルユナイテッド、または飲料のニューカッスルブラウンエールを指す場合があります。 コンテキストは、参照テキストの曖昧さを解消するのに役立ちます。 たとえば、参照テキストに「ジョンはニューカッスルでプレーする」という文脈が含まれている場合、その言及はおそらくフットボールクラブであり、「ジョンはニューカッスルで生まれた」は場所などを指している可能性があります。
Googleは、検索を改善するためのGoogle Patents Context Vectorsで書いたように、キーワードの開発においてコンテキストをよりよく理解しようとしていたことを知っています。 エンティティのコンテキストをよりよく理解することに関するGoogleの特許は、ページに意味を追加し、検索エンジンがそれらについて知っていることを追加できます。 この新しい特許の焦点は、エンティティ解決を使用してクエリを理解するのに役立つモデルを構築することです。
モデルは、観測値が与えられた場合に、いくつかのイベントの確率を予測します。 機械学習アルゴリズムを使用して、モデルのパラメーターをトレーニングできます。 たとえば、モデルには、複数の異なるエンティティのそれぞれについて、一連の機能とサポートスコアを格納できます。 サポートスコアは、モデルが学習した確率スコア、つまりエンティティに指定された機能が発生する確率を表します。 エンティティ解決で使用されるモデルは、言及モデル、コンテキストモデル、およびコヒーレンシモデルの3つのコンポーネントに依存しています。 上記のモデルは、特定のフレーズがデータグラフ内の特定のエンティティを参照しているという以前の信念を表しています。 コンテキストモデルは、言及のテキストコンテキストが与えられた場合に、言及の最も可能性の高いエンティティを推測します。 コンテキストモデルでは、各機能は、エンティティの言及のコンテキストの一部であるフレーズを表すことができます。 たとえば、「大統領」というフレーズには、「バラクオバマ」、「ビルクリントン」、「ニコラサルコジ」、およびその他の多くのエンティティのサポートスコア(または確率スコア)が含まれる場合があります。 同様に、「plays for」というフレーズは、さまざまなバンド、チームなどのサポートスコアを持つ場合があります。上記のコンテキストは、参照テキストと同時発生する(たとえば、発生する)一連の機能またはフレーズによって表すことができます。 、またはエンティティの言及。 コヒーレンシモデルは、ドキュメント内のすべての参照式に、データグラフ内で相互に関連するエンティティを解決するように強制しようとします。 ただし、コヒーレンシモデルでは、ドキュメント内のすべての言及の解像度間に依存関係が導入され、データグラフ内の関連するエンティティの関係が推論時に利用可能である必要があり、推論とモデルのアクセスコストが増加します。
エンティティ解決特許は次のとおりです。
エンティティ解決のための付加的なコンテキストモデル
発明者:Amarnag Subramanya、Michael Ringgaard、Fernando Carlos das Neves Pereira
譲受人:Google
米国特許:9,697,475
付与:2017年7月4日
提出日:2013年12月23日
概要:
エンティティの曖昧性解消のために加法コンテキストモデルを使用するためのシステムと方法が開示されています。 例示的な方法は、文書からテキストのスパンおよびスパンの句ベクトルを受信することを含み得る。 フレーズベクトルにはいくつかの特徴があり、スパンのコンテキストを表す場合があります。 この方法はまた、スパンによって参照された知識ベースから候補エンティティの数を決定することを含む。 候補エンティティの数ごとに、この方法は、フレーズベクトル内の各特徴について候補エンティティのサポートスコアを決定し、サポートスコアを加算的に組み合わせ、コンテキストが与えられた場合にスパンが候補エンティティに解決される確率を計算することを含み得る。 。 この方法はまた、最も高い確率で候補エンティティへのスパンを解決することを含み得る。
申請者の参考文献
この特許で言及されているすべての論文を見たとき、それらすべてを読み、それらへのリンクを共有したかったこれらは検索業界のリーダーによって選択された論文であり、それらへのリンクを持つことはいくつかのエンティティの解決に関する最新の調査。 私はこれから数週間でこれらを経験するでしょう。 私はそれを、入手可能な最高の情報源のいくつかから学ぶ機会と見ています。 これらの論文について何か目立った点があれば、ぜひご意見をお聞かせください。
Chu、et al、“ Map-Reduce for Machine Learning on Multicore”、In NIPS、2006、pp。281-288。 申請者による引用。
フリードマン他、「加法ロジスティック回帰:ブースティングの統計的見解」、特別招待論文、The Annals of Statistics、vol。 28、No。2、2000、pp.337-407。 申請者が引用した。
「Ambiverse:AIDA:テキストと表の名前付きエンティティの正確なオンライン曖昧性解消」、Max Planck Institut Informatik、http://www.mpi-inf.mpg.de/departments/databases-and-information-systems/rでオンラインで入手可能--esearch / yago-naga / aida /、2013年、4ページ。 申請者が引用。
Baluja et al。、「YouTubeのビデオ提案と発見:ビューグラフをランダムウォークする」、ワールドワイドウェブに関する国際会議(WWW 2008)、2008年4月21〜25日、10ページ。 申請者が引用した。
Bollacker et al。、「Freebase:人間の知識を構造化するための共同で作成されたグラフデータベース」、データ管理に関するACM SIGMOD国際会議の議事録、2008年6月9〜12日、1247-1249ページ。 申請者が引用した。
Bunescu et al。、“ Using Encyclopedic Knowledge for Named Entity Disambiguation”、Proceedings of the 11th Conference of the European Chapter of the Association for Computational Linguistics、Apr。2006、pp。9-16。 申請者が引用した。

Cucerzan、Silviu、「ウィキペディアのデータに基づく大規模な名前付きエンティティの明確化」、ze et al。の経験的方法に関する合同会議の議事録、
「知識ベース人口のための実体の曖昧性解消」、計算言語学に関する第23回国際会議の議事録、2010年8月、pp.277-285。 申請者が引用した。
Duchi et al。、「前方後方分割を使用した効率的なオンラインおよびバッチ学習」、Journal of Machine Learning Research、vol。 10、2009、pp.2899-2934。 申請者が引用した。
Ferragina et al。、“ TAGME:On-the-fly Annotation of Short Text Fragments(by Wikipedia Entities)“、Proceedings of the 19th ACM International Conference on Information and Knowledge Management、Oct。26-30、2010、pp。1625- 1628年。 申請者が引用した。
Finin et al。、「クロスドキュメントエンティティ共参照解決のためのWikitologyの使用」、人工知能学会、2009年、29〜35ページ。 申請者が引用。
Finkel et al。、「ギブスサンプリングによる情報抽出システムへの非局所情報の組み込み」、第43回ACL年次総会の議事録、2005年6月、363-370。 申請者が引用した。
Gabrilovich et al。、「70,000人の人間の編集者の専門知識を活用する:テキスト分類のための知識ベースの特徴生成」、Journal of Machine Learning Research、vol。 8、2007、pp.2297-2345。 申請者が引用した。
Hachey et al。、「ウィキペディアとリンクしているエンティティの評価」、人工知能、vol。 194、2013、pp.130-150。 申請者が引用。
Haghighi et al。、「豊富な構文的および意味的特徴を備えた単純な共参照解決」、自然言語処理における経験的方法に関する会議の議事録、2009年8月6〜7日、1152-1161ページ。 申請者が引用した。
Han et al。、「エンティティと知識ベースをリンクするための生成エンティティ-メンションモデル」、第49回計算言語学会年次総会の議事録:Human Language Technologies–vol。 1、2011年6月19〜24日、945〜954ページ。 申請者が引用した。
ハン他、「エンティティリンキングのためのエンティティ-トピックモデル」、自然言語処理および計算自然言語学習における経験的方法に関する2012年合同会議の議事録、2012年7月12-14日、105-115ページ。 申請者が引用した。
ハン他、「ウィキペディアの意味論的知識を活用することによる名前付きエンティティの曖昧さの解消」、情報および知識管理に関する第18回ACM会議の議事録、2009年11月2〜6日、215〜224ページ。 申請者が引用した。
Hoffart et al。、「テキスト内の名前付きエンティティのロバストな曖昧性解消」、自然言語処理における経験的方法に関する会議の議事録、2011年7月27〜31日、782〜792ページ。 申請者が引用した。
Kulkarni et al。、「Webテキストにおけるウィキペディアエンティティの集合的注釈」、知識発見とデータマイニングに関する第15回ACM国際会議の議事録、6月28日-7月。 1、2009、pp.457-466。 申請者が引用した。
Kwiatkowski et al。、「意味解析のためのCCG文法誘導における語彙の一般化」、自然言語処理における経験的方法に関する会議の議事録、2011年7月27〜31日、1512-1523ページ。 申請者が引用した。
Lin et al。、「Webスケールでのエンティティリンキング」、Proc。 自動知識ベース構築とWebスケールの知識抽出に関する合同ワークショップの概要、2012年6月7〜8日、84〜88ページ。 申請者が引用した。
Mayfield et al。、“ Cross-Document Coreference Resolution:A Key Technology for Learning by Reading”、Spring Symposium on Learning by Reading and Learning to Read、2009年3月、6ページ。 申請者が引用した。
Mihalcea et al。、“ Wikify! ドキュメントを百科事典の知識にリンクする」、情報と知識の管理に関する第16回ACM会議の議事録、2007年11月6〜8日、233〜241ページ。 申請者が引用した。
Milne et al。、“ Learning to Link with Wikipedia”、Proceedings of the 17th ACM Conference on Information and Knowledge Management、Oct。26-30、2008、pp。509-518。 申請者が引用した。
Nigam et al。、「EMを使用したラベル付きおよびラベルなしドキュメントからのテキスト分類」、機械学習、vol。 39、2000、pp.103-134。 申請者が引用。
Orr et al。、「ビッグデータから学ぶ:コンテキスト内の4000万のエンティティ」、オンラインで入手可能<https://research.googleblog.com/2013/03/learning-from-big-data-40-mil-lion.html >、2013年3月8日、6ページ。 申請者が引用。
Ratinov et al。、「ウィキペディアへの曖昧性解消のためのローカルおよびグローバルアルゴリズム」、計算言語学会第49回年次総会の議事録、2011年6月19〜24日、1375-1384ページ。 申請者が引用した。
Sil et al。、「名前付きエンティティを任意のデータベースにリンクする」、自然言語処理および計算自然言語学習における経験的方法に関する合同会議の議事録、2012年7月12〜14日、116〜127ページ。 申請者が引用した。
Subramanya et al。、「メジャー伝播による半教師あり学習」、Journal of Machine Learning Research、vol。 12、2011、pp.3311-3370。 申請者が引用した。
Talukdar et al。、「クラスインスタンス取得のためのグラフベースの半教師あり学習方法の実験」、計算言語学会第48回年次総会の議事録、2010年7月11〜16日、1473-1481ページ。 申請者が引用した。
Talukdar et al。、「トランスダクティブ学習のための新しい正則化アルゴリズム」、データベースにおける機械学習と知識発見に関する欧州会議の議事録:パートII、2009年、442-457ページ。 申請者が引用した。
Talukdar et al。、「グラフランダムウォークを使用したラベル付きクラスインスタンスの弱教師あり取得」、自然言語処理における経験的方法に関する会議の議事録、2008年10月、582〜590ページ。 申請者が引用した。
特許は実体を明確にするためのプロセスを説明していますが、特許のリソースを調べることができることは価値があり、彼らがどのように行っているかについてもっと学んだので、特許のその側面に焦点を当てる価値があるように思えましたエンティティの解決。 私はそれらを通り抜けます。 これは学術的な演習のように思えるかもしれませんが、エンティティの解決は現在、Googleがクエリを処理する方法の一部であり、何かを知る価値があります。 Googleがクエリで「ニューキャッスル」を見つけると、エール、チーム、または場所が参照されているかどうかを知る必要があります。
それを検索エンジンにどのように見せますか?
