更新された大規模なデータセットに基づく検索ランキングモデル特許
公開: 2018-08-22検索ランキングモデルと大規模なデータセット
本発明の原理と一致する1つの態様に従って、文書をランク付けするための方法が提供される。 この方法は、文書が選択される可能性を予測する検索ランキングモデルを作成すること、および数千万のインスタンスを含むデータセットを使用してランキングモデルをトレーニングすることを含み得る。
2011年に、私は2007年にGoogleに付与された特許について、非常に大量のデータを使用する検索ランキングモデルの構築について、クエリ、Web上のドキュメント、および検索者について書きました。 私がそれについて書いた投稿は、グーグルとパンダのような大規模データモデルであり、当時私が書いた特許のバージョンは、大規模なデータセットに基づいたドキュメントのランキングでした。
その検索ランキングモデルの特許は、継続特許の使用により、3度目に更新されました。 以前の2つの継続特許は付与されていませんが、この最新の特許は付与されており、この段落の下のリンクにあります。 説明は2003年に提出された元のバージョンと同じように見えます。クレームは大幅に書き直されており、新しいクレームはこの特許にどれだけの努力が払われたかを捉えているため、一見の価値があります。 検索ランキング特許の最新バージョンは、次の場所にあります。
大規模なデータセットに基づくドキュメントのランク付け
発明者:Jeremy Bem、Georges R. Harik、Joshua L. Levenberg、Noam M. Shazeer、Simon Tong
譲受人:Google LLC
米国特許:10,055,461
付与:2018年8月21日
提出日:2015年7月31日
概要
システムは、少なくとも部分的にはランク付けモデルに基づいてドキュメントをランク付けします。 ランキングモデルは、ドキュメントが選択される可能性を予測するために生成される場合があります。 システムは、検索クエリを受信し、検索クエリに関連するドキュメントを識別することができる。 次に、システムは、少なくとも部分的に、ランク付けモデルに基づいてドキュメントをランク付けし、ランク付けされたドキュメントからの検索クエリの検索結果を形成することができる。
検索ランキングモデル特許の更新されたクレーム
この検索ランキング特許の最初のバージョンから最新バージョンまでのクレームを比較して、それがどれだけ変化したかを把握することは価値があります。 以前に最初のバージョンについて作成した投稿を読むことも、それが何をカバーしているかを理解するのに役立ちます。 特許が適用されるものとはかなり対照的であるため、ここにそれぞれの最初のクレームのコピーを含めています。
特許の元のバージョンでは、最初のクレームははるかに短く、まったく詳細ではありません。 それは私たちに次のことを教えてくれます:
1.文書が選択される可能性を予測するランキングモデルを作成することを含む、コンピュータで実装された方法:複数の事前検索に関連する情報を格納し、少なくとも部分的にに基づいて事前選択確率を決定する。事前検索に関連する情報、および少なくとも部分的に事前選択の確率に基づくランキングモデルの生成。 約数千万のインスタンスを含むデータセットを使用してランキングモデルをトレーニングします。 検索クエリに関連するドキュメントを特定する。 少なくとも部分的にはランキングモデルに基づいてドキュメントをスコアリングします。 スコアリングされたドキュメントから検索クエリの検索結果を形成します。 検索結果を出力します。
その主張を、検索ランキングモデル特許の最新バージョンからのこの主張と比較してください。これははるかに詳細です。
主張されているのは:
提供される検索結果において第1の文書が識別されたときに特定のユーザによって選択されたそれぞれの第1の文書をそれぞれ識別する複数のトレーニングインスタンスを含むトレーニングデータのコレクションを、分散検索システムによって受信することを含むコンピュータ実装方法。特定のユーザーによって発行された特定の検索クエリに応答して、特定のユーザーに対して検索システムによって。 トレーニングデータの収集を分散検索システムの複数のコンピューティングデバイスに分割する。 分散検索システムによって、特定のユーザーによって送信された特定の検索クエリに応答して提供される1つ以上の検索結果によって識別されたときに、特定のユーザーが特定のドキュメントを選択する可能性を生み出すランキングモデルを生成します。複数のコンピューティングデバイスの各コンピューティングデバイス、コンピューティングデバイスに割り当てられたトレーニングインスタンス、以下を含む:コンピューティングデバイスによって、候補条件を選択する。ここで、候補条件は、1つまたは複数のユーザ機能、1つまたは複数のクエリ機能の値を指定する。そして、1つまたは複数の文書特徴は、コンピューティングデバイスによって、複数のコンピューティングデバイスの互いのコンピューティングデバイスに、候補条件のローカル統計を計算する要求を送信し、コンピューティングデバイスによって、1つの他のコンピューティングデバイスから受信する。以上の他のコンピューティングデバイス、他のコンピューティングによって計算された候補条件のそれぞれの計算された統計他のコンピューティングデバイスに割り当てられたローカルトレーニングインスタンスの値を使用して、コンピューティングデバイスによって、候補条件について1つまたは複数の他のコンピューティングデバイスから受信した計算された統計に従って候補条件の重みを計算する。 コンピューティングデバイスによって、候補条件と計算された重みを含む新しいルールをランキングモデルに追加する必要があることを決定し、それに応じて、新しいルールをランキングモデルに追加し、コンピューティングデバイスによって相互に提供する複数のコンピューティングデバイスのコンピューティングデバイス。候補条件と計算された重みを含む新しいルールをランキングモデルに追加する必要があることを示します。 最初のユーザーから送信された検索クエリを受信する。 検索クエリを満たす複数の検索結果を取得する。各検索結果は、複数の文書のそれぞれの文書を識別する。 最初のユーザーの1つまたは複数の機能と、最初のユーザーによって送信された検索クエリの1つまたは複数の機能を決定する。 ランキングモデルへの入力として最初のユーザーの1つ以上の機能と検索クエリの1つ以上の機能を使用して、検索結果によって識別された各ドキュメントについて、最初のユーザーが次の場合にドキュメントを選択するそれぞれの可能性を計算します。検索クエリに応答して提供されます。 そして、各ドキュメントのそれぞれの計算された尤度に基づいて複数の検索結果をランク付けします。各ドキュメントの計算された尤度は、検索クエリに応答して提供されたときに最初のユーザーがドキュメントを選択する可能性です。
この主張は、検索ランキングモデルには、ユーザー、クエリ、およびランク付けされたドキュメントに関する機能が含まれていることを示しています。 これらは、新しいクレームで特定された機能のほんの一部です。
- 最初のユーザーの言語
- 最初のユーザーによって発行された1つ以上の以前のクエリ
- 最初のユーザーが特定のドキュメントにアクセスした回数
- クエリの言語
- クエリの1つ以上の用語
- 特定のユーザーが選択しなかった1つ以上の2番目のドキュメント
- 特定のクエリに応答して提供された検索結果の順序で選択された最初のドキュメントの位置を表すデータ
- 特定の検索クエリに応答して特定のユーザーに提供される検索結果で、選択された最初のドキュメントより上にランク付けされたドキュメントの数
- 最初のユーザーの場所
新しいバージョンの特許には他にもいくつかの主張があり、それらははるかに長くなっており、それらを調べて注意を払う価値があります。
特許の最初のバージョンは、検索者とクエリとドキュメントがどのように異なるかについて、トリプルに分割されたデータの多くの異なるインスタンスに注意を払っていることを示しています。 元の特許についての最初の投稿で言ったように:
最初のGoogle特許では、構築されているモデルは、ユーザーからのデータ、ユーザーが使用したクエリ、およびユーザーが選択したかどうかにかかわらず、ドキュメントの組み合わせを調べました。 これらの組み合わせのそれぞれは、「インスタンス」と呼ばれます。 インスタンスはデータの「トリプル」です:(u、q、d)、ここでuはユーザー情報、qはユーザーからのクエリデータ、dはクエリデータから返されたページに関連するドキュメント情報です。
検索ランキングモデル特許の更新について持ち帰り
グーグルがブロードコアアルゴリズムの更新を確認する:事実とアドバイスで説明されているように、グーグルは最近大規模なコア更新を行いました。 Googleがコア検索アルゴリズムを、おそらく1日に2回、長期間更新していることを私たちは知っています。 この検索ランキングモデル特許の新しいバージョンに反映されている更新がいつ適用されたのかはわかりませんが、継続特許として、理想的には特許の背後にあるプロセスの変更を反映しているためである可能性があります。時間の経過とともにアルゴリズムに導入された可能性があります。 Googleがこのアプローチを使用してページをランク付けしている場合、それはコア検索アルゴリズムの一部と見なされる可能性があります。 この特許は、検索ランキングを決定するために、ユーザーのクエリとドキュメントを含む非常に大量のデータを考慮しています。

