カフェイン:Googleのインデクサー

公開: 2017-03-24

Googleカフェイン

グーグルの検索エンジンの更新はしばしば不思議な出来事ですが、時々私は何かがどのように機能するかについての洞察を提供するグーグルの特許の情報に出くわします。 グーグルを以前よりもはるかに速くすることを目的としたグーグルのアップデートの1つはカフェインのアップデートでした。これは2010年にグーグルによってこの投稿で公式に発表されました:私たちの新しい検索インデックス:カフェイン。

ウェブページのコンテンツに変更を加えた場合、それらの変更がGoogleのインデックスに反映されるまでにどのくらいの時間がかかりますか? 新しいページやブログ投稿を公開した場合、それはいつクエリされる可能性のあるものとしてGoogleのインデックスの一部になりますか? Webに追加されたコンテンツが検索可能になるまでには少し時間がかかりました。 グーグルはそのインデックスを更新し、ウェブに追加された多くのデータは、多くの人々によってグーグルダンスと呼ばれる動きでクエリ可能になるでしょう。 その後、Googleは、検索結果をより迅速に変更することを意味するアプローチを考案しました。Googleの元Webスパム責任者であるMatt Cuttsは、このビデオで、Google検索結果で発生した「フラックス」について説明しました。

Googleは、Web上のコンテンツのインデックス作成を高速化することを目的としたアップデートをプッシュしました。 それらのアップデートの1つは、BigDaddyアップデートと呼ばれていました。 2009年に行われたもう1つのものは、カフェインアップデートと呼ばれていました。 この新聞記事では、わずかに異なる外観が利用可能です:Googleカフェイン:それが実際に何であるか

最近、私はグーグルが検索インデックスをはるかに速くする方法を示す特許に出会い、ウェブ上のコンテンツが何年にもわたってインデックス付けされてきた方法の多くの変更についてグーグルのカフェインアップデートが非難されたのを見て、それを共有することにしました-この特許を共有するグーグルがウェブ上のページをどのように索引付けしているのかについて、人々にもう少し理解を与えるかもしれません。 同日に3件の関連特許が出願されました。 それらは、カフェインがどのように機能するかについての興味深い見方を提供します。 彼らがしていることは単にこれです:

開示された実施形態は、一般に、データ処理システムおよび方法、特に、ドキュメントが更新されてからドキュメントがクエリに利用可能になるまでの低待ち時間をサポートし、クエリスレッドとリポジトリ更新スレッドとの間の同期をほとんど必要としないドキュメントリポジトリに関連する。 。

したがって、Webで何かを公開してから、それがGoogleのインデックスに追加されるまでにどのくらいの時間がかかるのか疑問に思っている場合は、それらの特許に記載されている同期に依存します。

Googleは、転置インデックスと呼ばれるものを検索します。これには、ウェブ上でインデックスを作成する各ドキュメントのすべての単語と、それらの単語の場所へのポインタが含まれます。 この特許は、新鮮な結果を提供する上で「障害」と呼ばれるものを指摘しています。 これらには以下が含まれます:

(1)ドキュメントリポジトリが更新されるたびにドキュメントインデックスを再構築することに関連する費用またはオーバーヘッド。 たとえば、多くの場合、新しいドキュメントと更新されたドキュメントから小さなインデックスを作成し、小さなインデックスをメインインデックスと定期的にマージすることで、大きなオーバーヘッドが発生します。このようなシステムでは、通常、ドキュメントの更新とリポジトリインデックスでのドキュメントの可用性との間に長い待ち時間が発生します。

(2)大きなオーバーヘッドを発生させることなく、リポジトリの更新中にドキュメントリポジトリに対するクエリを継続的に処理することの難しさ。 この2番目の障害の1つの側面は、クエリを実行するスレッドと、ドキュメントリポジトリをデータリポジトリ内の主要なデータ構造で更新するスレッドの両方を同期する必要があることです。 クエリスレッドとリポジトリ更新スレッドを同期する必要があると、ドキュメントの更新が頻繁に実行される場合、ドキュメントリポジトリの効率的な運用に重大な障害が生じる可能性があります。これは、ドキュメントリポジトリの鮮度を維持する上での障壁となります。

特許を取得してすべてを読むために、ここにそれへのリンクがあります:

ドキュメントリポジトリ内のドキュメントを更新し、無効化されたドキュメントからストレージスペースを回復するためのドキュメントトレッドミリングシステムと方法
発明者:MichaelBurrowsとJeffreyA。Dean
譲受人:Google Inc.
米国特許7,617,226
付与:2009年11月10日
提出日:2006年2月10日

概要

トークンスペースリポジトリは、ドキュメントを一連のトークンとして保存します。 トークンスペースリポジトリ、およびトークンスペースリポジトリの転置インデックスは、第1エンドと第2エンドを持ち、第2エンドでの挿入とフロントエンドからの削除を可能にするデータ構造を使用します。 トークンスペースリポジトリ内のドキュメントは、更新されたバージョンを2番目の端のリポジトリに挿入し、以前のバージョンを無効にすることによって更新されます。 無効化されたドキュメントはすぐには削除されません。 それらは、後でガベージコレクションを行うためにガベージコレクションリストで識別されます。 トークンスペースリポジトリは、無効化されたドキュメントをフロントエンドにシフトするためにトレッドミルされます。その時点で、それらは削除され、ストレージスペースが回復されます。

トレッドミリング

この特許を読んだとき、私の注意を引いた言葉の1つは「トレッドミリング」でした。これは、Googleのインデックスでデータがどのように処理されるかを説明するために使用されました。

削除はフロントエンドのデータに対してのみ実行できるため、セル内のデータは定期的に「トレッドミル」されます。 つまり、フロントエンドの有効なデータがバックエンドにコピーされ、フロントエンドの元の有効なデータが削除されます。 フロントエンドからの有効なデータがバックエンドに移動されると、フロントエンドとバックエンドの間のセルのデータは論理的にフロントエンドにシフトされ、必要に応じて削除される場合があります。 したがって、トレッドミリングは、無効になったデータ(古いデータと呼ばれることもあります)によって占有されているメモリスペースの回復に役立ちます。 トレッドミリングに関するさらなる情報は、図1および図2に関連して、以下に説明される。 13-15。

特許の残りの部分では、このインデックスシステムがどのように機能するかについて詳しく説明しています。それを読んだ後、カフェインについて話しているのか、カフェインがまだGoogleで使用されているのか疑問に思いました。 過去数日間、グーグルのスポークスパーソンであるゲイリー・イリーズは、グーグルのインデクサーであるカフェインが依然として重要であり、グーグルによって使用されていることを示すように思われる方法で、いくつかの不可解なツイートを行った。

ゲイリーイリーズカフェインツイート