Googleのフレーズベースのインデックスを使用していますか?

公開: 2017-05-18

フレーズベースのインデックス作成は、特定のクエリ用語に関連するページと、関連するフレーズを使用してそのページを指すアンカーテキストが存在することで、ページの関連性を高めるのに役立ちます。 フレーズベースのインデックス作成は、少なくとも2004年以来Googleで取り組んでいるものです。

Anna Lynne Pattersonが論文「WhyWritingYour Own Search Engine is Hard」を書いたとき、彼女はWeb上で見つけられる最大の検索エンジンの1つを、インターネットで300億ページ以上のインデックスを作成したRecallという名前で作成していました。アーカイブ。 彼女はその後間もなくGoogleに参加し、フレーズベースのインデックス作成について特許を申請し始めました。 私は彼女が出てきた特許のいくつかについて書いた:

2006年2月10日–ページランクを移動:Googleはフレーズを見ていますか?
2006年5月19日– Googleは1,000億ページを目指していますか?
2006年12月29日–フレーズベースの情報検索とスパム検出
2008年9月16日–Googleフレーズベースのインデックス作成特許が付与されました
2009年3月15日–あなたのウェブサイトのトップフレーズは何ですか?
2010年4月7日–Googleのフレーズベースのインデックス作成のフレーズ化と再検討
2011年12月19日– 10の最も重要なSEO特許、パート5 –フレーズベースのインデックス作成
2016年8月5日–ドキュメントとアンカーテキストで関連する単語を使用したテーマ別モデリング

私はそれがブログ投稿の始めにあなたに投げかけることがたくさんあることを知っています。 このトピックについて詳しく知りたい場合は、上記のリストに戻って、以前の投稿のいくつかにアクセスしてください。 アナリン・パターソンが、残念ながら失敗したGoogleのライバルであるCuilを立ち上げるために、ある時点でGoogleを離れ、CuilがGoogleの検索担当副社長として閉鎖された後、Googleに再雇用されたとは言いませんでした。

本日、Googleは2007年に最初に出願された特許の継続特許を取得しました。これにより、Googleがフレーズベースのインデックスを採用したことが最初に発表されたときに確信しました。 これは、フレーズベースのインデックス作成システムが機能していると説明する方法が、ワールドワイドウェブのように大きくて複雑なものにインデックスを付けるのに非常に理にかなっているように見えるためです。

特許は次の場所にあります。

階層化およびシャーディングされたフレーズ投稿リストを使用したインデックスサーバーアーキテクチャ
発明者:Pei Cao、Nadav Eiron、Soham Mazumdar、Anna L. Patterson、Russell Power、Yonatan Zunger
譲受人:Google Inc.
米国特許9,652,483
付与:2017年5月16日
提出日:2015年11月23日

概要:

情報検索システムは、フレーズを使用して、ドキュメントのインデックス作成、取得、整理、および説明を行います。 フレーズはドキュメントコレクションから抽出されます。 ドキュメントは、フレーズ投稿リストを使用して、含まれているフレーズに従ってインデックスが作成されます。 フレーズ投稿リストは、インデックスサーバーのクラスターに保存されます。 フレーズ投稿リストは、グループに階層化し、パーティションに分割することができます。 クエリ内のフレーズは、考えられるフレーズに基づいて識別されます。 フレーズに基づくクエリスケジュールは、フレーズから作成され、クエリ処理と通信コストを削減するために最適化されます。 クエリスケジュールの実行は、さまざまなインデックスサーバーでのクエリ処理操作をさらに削減または排除するために管理されます。

私は検索エンジンがどのように機能するかを理解するために特許を読み始めました。これは、転置インデックスと個々の用語で構成される投稿リスト、そして意味のあるフレーズで構成される投稿リストについて説明しています。 上記の「ThematicModeling」に関する私のリストの最後の投稿は、2012年に提出された「フレーズベースのインデックス情報検索システムへの外部関連フレーズ情報の統合」というタイトルのフレーズベースのインデックス作成特許に関するものです。ページ上のフレーズは、別のフレーズの出現を予測するために使用できます。 この最新の特許と、フレーズベースの検索エンジンがどのように機能するかについての説明を読むことを強くお勧めします。 特許がここで私たちに告げているように、フレーズベースのインデックスを設定しようとすることにはいくつかの課題があります:

ここでの問題は、従来のシステムインデックスドキュメントが概念ではなく個々の用語に基づいていることです。 概念は、「暗黒物質」、「米国大統領」などのフレーズ、または「天候下」や「10セント硬貨」などのイディオムで表現されることがよくあります。 せいぜい、いくつかの以前のシステムは、人間のオペレータが通常選択する「既知の」フレーズの所定の最小限のセットに関する文書に索引を付けるであろう。 フレーズのインデックス付けは、考えられるすべてのフレーズ、たとえば3つ、4つ、または5つ以上を識別するための計算およびメモリの要件が認識されるため、通常は回避されます。 たとえば、任意の5つの単語がフレーズを構成でき、大きなコーパスに少なくとも200,000の一意の用語があると仮定すると、約3.2倍10 26の可能なフレーズがあり、既存のシステムが保存できるよりも明らかに多いか、それ以外の場合は、プログラムで操作します。 さらなる問題は、フレーズがその使用法に関してレキシコンに継続的に出入りすることであり、新しい個々の単語が発明されるよりもはるかに頻繁です。 新しいフレーズは常にテクノロジー、アート、世界の出来事、そして法律から生み出されています。 他のフレーズは、時間の経過とともに使用量が減少します。

一部の既存の情報検索システムは、個々の単語の共起パターンを使用して概念の検索を提供しようとします。 これらのシステムでは、「President」などの1つの単語を検索すると、「White」や「​​House」など、「President」と頻繁に出現する他の単語を含むドキュメントも取得されます。 このアプローチでは、個々の単語のレベルで概念的に関連するドキュメントを含む検索結果が生成される場合がありますが、通常、共起するフレーズ自体の間のトピックの関係はキャプチャされません。

フレーズベースのインデックスシステムですべてをキャプチャするために非常に多くのストレージが必要になるという問題は、個々の用語にインデックスを付けようとすると依然として発生します。

既存の個別の用語ベースの索引付けシステムに関する別の問題は、索引にアクセスするためのサーバー・コンピューターの配置にあります。 インターネットのような大規模なコーパスの従来の索引付けシステムでは、索引は20万以上の固有の用語の投稿リストで構成されます。 各用語投稿リストには、数百、数千、まれに数百万のドキュメントを含めることができます。 インデックスは通常、多数のインデックスサーバーに分割されます。各インデックスサーバーには、すべての一意の用語を含むインデックスが含まれ、これらの用語ごとに、投稿リストの一部が含まれます。 このような一般的なインデックスシステムでは、この配置で1,000台以上のインデックスサーバーを使用できます。

このようなインデックスシステムでいくつかの用語を含む特定のクエリが処理されると、クエリごとにすべてのインデックスサーバーにアクセスする必要があります。 したがって、単純な単一の単語のクエリでさえ、各インデックスサーバー(たとえば、1,000台のサーバー)がその単語を含むドキュメントを含むかどうかを判断する必要があります。 すべてのインデックスサーバーがクエリを処理する必要があるため、最も遅いインデックスサーバーの全体的なクエリ処理時間は制限されます。

これらは、フレーズベースのインデックス作成のアイデアが開発されたときに存在すると認識されていた問題です。 ただし、これらの問題を解決できれば、フレーズベースのインデックスを使用することには潜在的なメリットがあります。 この特許は、フレーズに基づいてWebにインデックスを付けて検索するようにサーバーを設定する方法を説明しています。

メリット? 「野球場」に関するページを想像してみてください。 「ピッチャーマウンド」、「売店」、「一塁手」などのフレーズが含まれている可能性があります。 これらのフレーズは、野球場に関するそのページに関連していると識別できます。 これらのフレーズは、野球スタジアムに関する上位のページで頻繁に発生する傾向があります。 特許は、ここで説明されているようなフレーズを採点する可能性があります。

一態様では、情報検索システムは、句に基づく索引付けシステムおよび索引サーバーアーキテクチャを含む。 フレーズはドキュメントコレクションから抽出され、単なる単語の組み合わせではなく、ユーザーが言語で使用する実際のフレーズを識別します。 一般に、これは、ドキュメントの構造的特徴に基づいて候補フレーズである大量の単語シーケンスを収集することによって行われます。 各候補フレーズには、ドキュメント内での位置と、他の候補フレーズと独立してまたは共同で発生する程度に基づいて、実際のフレーズである可能性を反映する方法で、それが表示される各ドキュメントのドキュメントフレーズスコアが与えられます。ドキュメント内。 また、各候補フレーズは、同様にスコアリングされるサブフレーズを識別するために処理されます。

次に、各候補フレーズのドキュメントフレーズスコアが、結合されたスコアを作成するように見えるドキュメント間で結合されます。 ドキュメントフレーズのスコアと候補フレーズの合計スコアを評価して、ドキュメントコレクションが実際のフレーズでの候補フレーズの使用をどの程度強力にサポートしているかを判断します。 一般に、候補フレーズは、少なくとも1つのドキュメントによって強力にサポートされている場合に保持されます。 たとえば、ドキュメントフレーズスコアの最大値が所定のしきい値を超えています。 候補フレーズは、2番目の所定のしきい値を超える組み合わせフレーズスコアを持つことによって示されるように、適度にサポートされている場合にも保持されます。 これは、候補フレーズが実際のフレーズと見なされるのに十分に広く使用されていることを示しています。 最後に、候補フレーズは、いくつかのドキュメントから最小スコアを受け取るフレーズによって示されるように、広くサポートされている場合にも保持されます。 例として、システムには約100,000〜200,000のフレーズを含めることができます。これは、単なる単語の組み合わせではなく、ドキュメントで使用される実際のフレーズを表します。

テイクアウト

このような方法を使用して、実際のフレーズ、それらが発生する頻度、およびドキュメント内でのそれらの位置を特定することは複雑です。 このフレーズベースのインデックスシステムは、特定のフレーズが異なるドキュメントに表示される頻度に基づいてスコアを生成したり、ドキュメントを指すアンカーテキストとしてスコアを生成したり、フレーズベースのインデックスを使用してスパムを識別したりするなど、いくつかの異なる特許を対象としています。 2004年以降に開発された関連特許はたくさんあります。それは十分に複雑なのであまり話題になりません。 はい、特定の用語のトップランクのページに頻繁に表示される傾向のあるフレーズを探すことができます。これにより、それらの用語についてページに理想的に含める必要のある意味のあるフレーズについてのヒントが得られます。

私が書いた特許はウェブ上のフレーズの転置インデックスを提供し、グーグルがそれらのフレーズを追跡している可能性が高いことを示しているので、私はグーグルの転置インデックスについて書き、この投稿に言及しました。