Googleでのユーザークリック率と検索結果ランキング

公開: 2019-03-19

Googleは、検索ランキングに影響を与えるために、ユーザーのクリックスルー率とユーザーの行動を調べていますか?

グーグルのスポークスパーソンは、検索ランキングでページをランク付けする際にユーザーのクリック率をグーグルに含めないと言っています。 Googleの新しい特許は、ユーザーのクリック率やその他のユーザーの行動情報が検索結果のランキングにどのように影響するかを説明しています。 この新しい特許は、そのプロセスを検討する可能性のある他の検索エンジンからGoogleプロセスを保護する最初の特許ではありません。 検索結果を操作する検索者に関する最初の数件の特許と、その情報が検索ランキングに影響を与えるためにどのように使用されるかについての最初の数件の特許の後、そのような情報が引き続きGoogle特許に表示されることに興味を持ち、ユーザークリックなどを詳しく調べるように促します。スルーレート。 特に、関連するアプローチがより詳細になった場合。

この特許は、継続特許を使用して3回更新されています。 継続特許は、特許の背後にあるプロセスの変更を反映するために、特許からのクレームを更新する方法です。 この特許は、検索ランキングは検索者が検索結果からページを表示するのに費やす時間の長さに基づいている可能性があり、ドキュメントは後で長期間表示されていることに基づいて上位にランク付けされる可能性があることを示しています。

本明細書に記載される主題の1つの態様は、文書結果が返される検索クエリのコンテキスト内で文書結果の関連性の尺度を決定することを含む、コンピュータ実装の方法で具体化することができ、決定は以下に基づく。第2の番号に関する第1の番号、文書結果のより長いビューに対応する第1の番号、および文書結果の少なくともより短いビューに対応する第2の番号。 そして、検索クエリに対応する新しい検索のために、ドキュメント結果を含む検索結果をランク付けするために、関連性の尺度をランク付けエンジンに出力する。 最初の数には、ドキュメント結果のより長いビューの数を含めることができ、2番目の数には、ドキュメント結果のビューの総数を含めることができ、決定には、より長いビューの数をビューの総数で割ることを含めることができます。

この方法は、文書結果が返される検索クエリのコンテキスト内で文書結果の個々の選択を追跡することをさらに含むことができる。 ドキュメント結果の重み付けされたビューを生成するために、ビューの長さ情報に基づいて選択から生じるドキュメントビューに重み付けする。 ドキュメント結果の加重ビューを組み合わせて、最初の数値を決定します。 2番目の数値には、ドキュメント結果のビューの総数を含めることができ、決定には、最初の数値を2番目の数値で割ることを含めることができ、関連性の尺度は、検索クエリに応答して返される他のドキュメント結果の関連性とは無関係にすることができます。

これは、ドキュメントの表示時間を見るよりも少し複雑です。 この特許はまた、それらのドキュメントが検索された検索クエリのカテゴリも、表示時間とユーザーのクリックスルー率の影響に影響を与える可能性があることを示唆しています。

重み付けは、閲覧長さの差別化要因と併せて、閲覧長さ情報に基づいてドキュメントビューに重み付けすることを含むことができる。 表示長の差別化要因には、検索クエリの決定されたカテゴリによって管理される要素を含めることができ、重み付けには、検索クエリの決定されたカテゴリに基づくドキュメントビューの重み付けを含めることができます。 視聴長の差別化要因は、個々の選択を生成するユーザーの決定されたタイプによって支配される要因を含むことができ、重み付けは、ユーザーの決定されたタイプに基づくドキュメントビューの重み付けを含むことができる。

このユーザーのクリックスルー率の特許で説明されているプロセスに従うと、次のような利点がもたらされると言われています。

  1. ランク付けサブシステムには、暗黙のユーザーフィードバックを使用して検索結果の再ランク付けを行い、情報検索システムのユーザーに提示される最終的なランク付けを改善するランク変更エンジンを含めることができます。
  2. ユーザーが選択した検索結果(クリックデータ)を追跡し、クリック率に変換して、将来の検索結果を再ランク付けすることができます。
  3. データはクエリごとに収集でき、特定のクエリについて、ドキュメント結果のユーザー設定を決定できます。
  4. さらに、関連性の尺度(たとえば、LC | Cクリック率)は、暗黙のユーザーフィードバックから決定できます。ここで、関連性の尺度は、検索クエリに応答して返される他のドキュメント結果の関連性、および関連性は、(ユーザーに表示される検索結果での)プレゼンテーションバイアスの影響を減らすことができます。そうしないと、暗黙のフィードバックに流れ込む可能性があります。

このユーザークリック率特許のこの最新バージョンは、次の場所にあります。

暗黙のユーザーフィードバックに基づいて検索結果のランキングを変更する
発明者:キム・ヒョンジン、サイモン・トング、ノアム・M・シェイザー、ミケランジェロ・ディリジェンティ
譲受人:Google LLC
米国特許:10,229,166
付与:2019年3月12日
提出日:2017年10月25日

概要

本開示は、検索クエリの検索結果のランク付けに関連するシステムおよび技法を含む。 一般に、本明細書に記載される主題は、文書結果が返される検索クエリのコンテキスト内で文書結果の関連性の尺度を決定することを含む、コンピュータ実装の方法で具体化することができ、決定は以下に基づく。第2の番号についての第1の番号、文書結果のより長いビューに対応する第1の番号、および文書結果の少なくともより短いビューに対応する第2の番号。 そして、検索クエリに対応する新しい検索のために、ドキュメント結果を含む検索結果をランク付けするために、関連性の尺度をランク付けエンジンに出力する。 本明細書で説明される主題はまた、様々な対応するコンピュータプログラム製品、装置、およびシステムで具体化することができる。

この特許の主張は、検索者が検索結果とどのように相互作用するか、およびそれらの相互作用から得られるデータをGoogleがどのように追跡するかについての考えを私たちに与えます。 特許からのクレームは、USPTOの検察官が特許を付与するかどうかを決定するために検討するものです。 これらの主張は、「結果選択ログ」、そのログに保持される可能性のある情報の種類、およびその測定方法について教えてくれます。 特許の最初の5つのクレームはすべて相互に関連しているため、ここに含めました。これらのクレームは、検索エンジンが検索を実行しているときに検索エンジンが何を見ているかについての洞察を提供します。

主張されているのは:

1つまたは複数のコンピュータおよび1つまたは複数のコンピュータによって実行されたときに1つまたは複数のコンピュータに以下を含む動作を実行させるように動作可能な命令が格納されている1つまたは複数の記憶装置を含むシステム。結果選択ログ、複数のユーザーのインターネット検索エンジンからの検索結果とのユーザーの相互作用に関するデータ。実際の相互作用の結果選択ログの各ログエントリは、1つの相互作用に固有であり、それぞれのユーザーを識別するデータ、によって送信されたクエリを含みます。ユーザ、クエリに応答して検索エンジンによって提示される1つまたは複数の検索結果、検索結果の中からユーザによって選択された文書、ユーザによって選択された検索結果の検索結果の表示順序における順序位置。 、ユーザーがドキュメントに費やした時間、ユーザーが使用する言語、およびユーザーがいる可能性が高い国。ログエントリには、以下を識別するエントリが含まれます。複数のユーザー、複数のドキュメント、複数の言語、および複数の国。 結果選択ログのログエントリから、(i)複数のクエリ-ドキュメントペアのそれぞれの加重クリック率、(ii)複数のクエリ-ドキュメント-言語ペアのそれぞれの加重クリック率、および(iii)加重-複数のクエリ-ドキュメント-言語-国のペアのそれぞれのクリック率。各加重クリック率は、ユーザーが選択した加重数のドキュメントの合計に基づいており、各加重は、ユーザーが費やした時間に基づいています。ドキュメント; 加重クリック率の1つ、または加重クリック率の1つの変換を特定のドキュメントの情報検索スコアに適用することにより、特定のドキュメントのインターネット検索エンジンで情報検索スコアを変更します。

前記ユーザが文書に費やした時間は、前記ユーザが前記検索エンジンによって提示された検索結果に戻って別のものを選択するまでの最初のクリックスルーから前記文書結果までに経過した時間として測定される、請求項1に記載のシステム。ドキュメントの結果。

前記ログデータはまた、検索エンジンによる検索結果の複数の提示のそれぞれについて、文書結果がそれぞれのユーザに提示されたが選択されなかったかどうか、前記1つまたは複数の選択のそれぞれの位置を含む、請求項1に記載のシステム。検索結果表示のユーザーインターフェイス、選択したドキュメントの情報検索スコア、選択したドキュメントの前に表示されたすべてのドキュメントの情報検索スコア、およびユーザーがドキュメントを選択する前にユーザーに表示されたタイトルとスニペット。

前記操作は、以下をさらに含む、請求項1に記載のシステム:ほとんどの場合、最高ランクの結果を選択するユーザに基づいてクリックフラクションに低い重みを割り当てる。加重クリック率で。

前記動作は、文書結果の個々の選択を2つ以上の視聴時間カテゴリに分類し、分類に基づいて個々の選択に重みを割り当てることと、短いクリックのためのカテゴリを含む視聴時間カテゴリとをさらに含む、請求項1に記載のシステム。ロングクリックのカテゴリ。

この特許はまた、「ランク付けのための伝統的な技術」と呼ばれるものにいくつかのひねりを加えています。 情報検索スコアとPageRankを使用した権限スコアの組み合わせに基づくランキングについて説明していますが、他の関連ドキュメントからのリンクページへのリンクを調べることにより、PageRankに基づいています。

検索エンジンには、ユーザークエリに関連するドキュメントをランク付けするためのランク付けエンジンを含めることができます。 ドキュメントのランク付けは、特定のクエリのために、インデックス付けされたドキュメントの情報検索(IR)スコアを決定するための従来の手法を使用して実行できます。 特定の検索用語または他の提供された情報に関する特定の文書の関連性は、任意の適切な技術によって決定することができる。 たとえば、検索語に一致するものを含むドキュメントへのバックリンクの一般的なレベルを使用して、ドキュメントの関連性を推測することができます。 特に、ドキュメントが他の多くの関連ドキュメント(たとえば、検索語に一致するものも含むドキュメント)によってリンクされている(たとえば、ハイパーリンクのターゲットである)場合、ターゲットドキュメントは特に関連性があると推測できます。 この推論は、ポインティングドキュメントの作成者が、ほとんどの場合、対象者に関連する他のドキュメントを指していると考えられるために行うことができます。

ポインティングドキュメントが他の関連ドキュメントからのリンクのターゲットである場合、それらはより関連性があると見なすことができ、最初のドキュメントは関連性のある(または関連性の高い)ドキュメントのターゲットであるため、特に関連性があると見なすことができます。 このような手法は、ドキュメントの関連性の決定要因または複数の決定要因の1つである可能性があります。 この手法は、GOOGLE.RTMで例示されています。 PageRankシステム。あるWebページから別のWebページへのリンクを、後者のページの品質の指標として扱い、そのような品質指標が最も多いページが優先されます。 適切な手法を使用して、誤った票を投じてページの関連性を人為的に高める試みを特定して排除することもできます。

この特許は、関連性を測定する他の方法も検討するランク修飾子エンジンも導入しています。

このような従来のドキュメントランキング手法をさらに改善するために、ランキングエンジンは、ランク修飾子エンジンから追加の信号を受信して​​、ドキュメントの適切なランキングを決定するのに役立てることができます。 ランク修飾子エンジンは、ドキュメントの関連性の1つ以上の測定値を提供します。これは、ユーザーに提供される検索結果のランキングを向上させるためにランキングエンジンで使用できます。 ランク修飾子エンジンは、以下でさらに説明する1つ以上の操作を実行して、1つ以上の関連性の尺度を生成できます。

検索エンジンは、サーバー側の検索結果信号内の最終的なランク付けされた結果リストをネットワーク経由で転送できます。 ネットワークを出ると、クライアント側の検索結果信号をクライアントデバイスで受信できます。クライアントデバイスでは、結果をRAM内に保存したり、プロセッサがユーザーの出力デバイスに結果を表示するために使用したりできます。

スコアリングエンジンが結果をランク付けする可能性のある機能

  1. クエリをドキュメントの結果にリンクするコンテンツベースの機能
  2. ドキュメントの結果の品質を一般的に示すクエリに依存しない機能
  3. 追跡コンポーネントを使用して、ランキングに表示される結果の個々のユーザー選択に関する情報を記録できます。 たとえば、追跡コンポーネントは、個々のドキュメント結果のユーザー選択(クリック)を識別し、ユーザーが結果ページに戻ったときを識別して、ユーザーが表示に費やした時間を示すWebページランキングに含まれるJavaScriptコードを埋め込むことができます。選択したドキュメントの結果。

ユーザーのクリックスルー率の追跡

ユーザーのクリックスルー率特許フローチャー

ユーザーのクリック率を追跡するということは、ユーザーの選択ごとに、次のことを示すログエントリなどの多くの情報を調べることを意味します。

  • クエリ(Q)
  • ドキュメント(D)
  • ドキュメントの時間(T)
  • ユーザーが使用する言語(L)
  • ユーザーがいる可能性が高い国(C)(たとえば、IRシステムへのアクセスに使用されるサーバーに基づく)
  • ドキュメントの結果がユーザーに表示されたが、クリックされなかったという事実などの否定的な情報
  • ユーザーインターフェイスでのクリックの位置
  • クリックした結果のIRスコア
  • クリックする前に表示されたすべての結果のIRスコア
  • クリックする前にユーザーに表示されるタイトルとスニペット
  • ユーザーのCookie
  • クッキーag
  • IP(インターネットプロトコル)アドレス
  • ブラウザのユーザーエージェントなど。
  • 検索者のセッション全体に関する同様の情報。現在のクリックの前後の両方で発生するクリックごとにそのような情報を記録する可能性があります

結果選択ログからのこのユーザー情報はすべて、後で他の検索者の結果を改善するために使用される可能性があります

この特許は、特定のクエリのクリック後でもクリックに関する情報を追跡できる検索者についても説明しています。 上記のアイテムは、他のドキュメントセットへのアクセスや、ドキュメント間の時間を含む検索結果と同様に追跡できます。 特定のドキュメントに費やされた時間は、長いビューまたは短いビューに分類される場合があります。長いビューは、検索結果をクリックしたときの品質の一般的な指標です。

ページでの表示時間の違いは何を表していますか?

ユーザーのクリック率の特許は、さまざまな視聴時間の意味に関する具体的な詳細を提供します。

たとえば、短いクリックはページの質が悪いことを示していると見なすことができ、したがって重みが低い場合(たとえば、クリックあたり-0.1)、中程度のクリックはページが良好である可能性があることを示していると見なすことができ、したがって重みがわずかに高くなります(たとえば、 、クリックあたり0.5)、長いクリックは適切なページを示していると見なすことができるため、ウェイトがはるかに高くなり(たとえば、クリックあたり1.0)、最後のクリック(ユーザーがメインページに戻らない場合)は次のようになります。良いページを示している可能性が高いと見なされ、したがってかなり高い重み(たとえば、0.9)が与えられます。 クリックの重みは、以前のクリック情報に基づいて調整することもできることに注意してください。

時間の長さだけを見るのではなく、ユーザーのクリック率に関する追加情報も検討することができます。

ショート、ミディアム、ロングクリックの分類に使用されるさまざまな時間枠、および適用する重みは、ユーザー選択ログからの履歴データを、さまざまな特定の検索結果の品質に関する人間が生成した明示的なフィードバックと比較することにより、特定の検索エンジンに決定できます。クエリ、および重み付けプロセスはそれに応じて調整できます。

不正なデータをどのように保護できるか

Googleのスポークスパーソンは、ユーザーのクリック率はランキングに使用されていないと聞いています。この特許は、ユーザーのフィードバック情報をより安全に使用する方法を示しています。

スパマー(特定の検索結果を後押しするために不正なクリックを生成するユーザー)に対する保護措置を講じることで、特定の(まれな)クエリで利用できるデータが非常に少ない場合でも、ユーザー選択データに意味があることを確認できます。 これらのセーフガードには、ユーザーが時間の経過とともにどのように動作するかを説明するユーザーモデルを採用することが含まれ、ユーザーがこのモデルに準拠していない場合、クリックデータは無視できます。 セーフガードは、2つの主な目的を達成するように設計できます。(1)投票の民主主義を確保する(たとえば、特定のクエリとURLのペアに対してCookieおよび/またはIPごとに1つの投票を行う)、および(2)からの情報を完全に削除するブラウジング動作が自然に見えないCookieまたはIPアドレス(たとえば、クリック位置の異常な分布、クリック時間、clicks_per_minute / hour / dayなど)。 疑わしいクリックを削除することができ、スパムのように見えるクエリのクリックシグナルを使用する必要はありません(たとえば、クリックがユーザーエージェントの分布、Cookieの経過時間など、正常に見えないクエリ)。

ビューの長さから決定される関連性

訪問者が結果を見る回数は、ページを見つけた関連性を示している可能性があると言われています。 「プレゼンテーションバイアス」というフレーズは、これがどのように機能するかを説明するために使用されます

プレゼンテーションバイアスには、ドキュメントの結果とともに提供される魅力的なタイトルやスニペット、ドキュメントの結果が提示されたランキング(位置)のどこに表示されるかなど、プレゼンテーションのさまざまな側面が含まれます。 他の結果と比較して、クエリに対するドキュメントの実際の関連性に関係なく、ユーザーはスニペットが適切な結果、またはランキングが高い結果をクリックする傾向があることに注意してください。 特定のクエリに対する特定のドキュメント結果の品質を評価することにより、特定のクエリに対する他のドキュメント結果に関係なく、この関連性の尺度は、プレゼンテーションのバイアスの影響を比較的受けにくくなります。

使用されるクエリは、多くの時間を必要としない可能性があり、誰かがページに費やす可能性のある時間に反映される可能性がある情報の必要性を示している可能性があります。 この特許は、ナビゲーションおよび情報クエリを含むいくつかの例を提供します。

したがって、不連続な重み付けの場合(および連続的な重み付けの場合)、適切なクリックを構成するもののしきい値(または式)は、クエリおよびユーザー固有のベースで評価できます。 たとえば、クエリカテゴリには、「ナビゲーション」と「情報」を含めることができます。ナビゲーションクエリは、特定のターゲットページまたはサイトが必要になる可能性が高いクエリ(「BMW」などのクエリ)であり、情報クエリは次のとおりです。多くの可能なページが等しく役立つもの(たとえば、「ジョージワシントンの誕生日」などのクエリ)。 このようなカテゴリは、informational-quickやinformational-slowなどのサブカテゴリにも分類される場合があることに注意してください。クエリが「ジョージワシントンの誕生日」ですが、クエリが「ヒルベルト変換チュートリアル」の場合、同じユーザーが結果を評価するためにかなりの時間が必要になる場合があります。

この特許はまた、ユーザーの行動に関して、ドウェルタイムのようなものがどのように考慮されるかについても教えてくれます。

クエリカテゴリは、クリック率によって提供されるIRスコアまたは履歴の暗黙的なフィードバックを分析することで識別できます。 たとえば、これらのいずれかに大きな偏りがある場合(つまり、1つまたは少数のドキュメントのみが他のドキュメントよりも非常に好まれている)、クエリがナビゲーションであることを示している可能性があります。 対照的に、クエリのクリックパターンが分散している場合は、クエリが情報提供であることを示している可能性があります。 一般に、クエリの特定のカテゴリを識別でき(たとえば、ナビゲーション)、そのようなクエリのセットを見つけて履歴クリックデータから取得でき、回帰分析を実行して、次のことを示す1つ以上の機能を識別できます。そのクエリタイプ(たとえば、ナビゲーションクエリと他のクエリカテゴリの平均滞在時間。「滞在時間」という用語は、ドキュメントの結果の表示に費やされた時間(ドキュメントの滞留時間とも呼ばれます)を指します)。

さまざまなユーザータイプとパターンおよびクリック

この特許は、ユーザーのクリック率だけでなく、クリックの速さやクリック内容に基づいて、さまざまなユーザーに関する情報を特定する方法も示しています。 ここで説明しているのはほんの数例であり、そのようなクリックを解釈する他の有用な方法を示す可能性のあるより多くの観察結果が見つかったと思います。

クリックパターンを分析することで、ユーザータイプを特定することもできます。 たとえば、コンピュータに精通したユーザーは、経験の浅いユーザーよりも速くクリックすることが多いため、ユーザーには、クリック動作に基づいてさまざまな重み関数を割り当てることができます。 これらの異なる重み関数は、完全にユーザー固有(1つのメンバーを持つユーザーグループ)にすることもできます。 たとえば、各ユーザーの平均クリック時間やクリック頻度を決定し、それに応じて各ユーザーのしきい値を調整できます。 ユーザーは、さまざまなクリック動作パターンに基づいてグループにクラスター化することもできます(たとえば、Kはクラスタリングアルゴリズムを使用します)。

さらに、ユーザーの決定されたタイプに基づいて、クリック期間が良いクリックとあまり良くないクリックにどのように変換されるか、および特定のユーザーグループと別のユーザーグループ。 一部のユーザーの暗黙のフィードバックは、ユーザーのレビュープロセスの詳細により、他のユーザーよりも価値がある場合があります。 たとえば、ほとんどの場合、最高ランクの結果をクリックするユーザーは、最初にランクの低い結果をクリックすることが多いユーザーよりも、適切なクリックに低い重みを割り当てることができます(2番目のユーザーは何を評価するかをより区別する可能性が高いため)良い結果を構成します)。 また、ユーザーは自分のクエリストリームに基づいて分類できます。 特定のトピックTに関する(または関連する)多くのクエリを発行するユーザー(たとえば、法律に関連するクエリ)は、特定のトピックTに関する高度な専門知識を持っていると推定でき、クリックデータは他のトピックに応じて重み付けできます。与えられたトピックTに関する(または関連する)彼らによるクエリ。

キム・ヒョンジンによるユーザークリックスルーレート特許

私が今日書いている特許の発明者の一人はキム・ヒョンジンです。 私は前に彼の名前に出くわしたことがあります。

彼が共同で発明した特許についてのAJコーンからの興味深いブログ投稿も一見の価値があります。 クリックスルー率はランキングシグナルですか?

同じ発明者からの特許に関する別の投稿は、クエリユーザーデータを使用してクエリを分類するという私が書いた投稿です。 ユーザーのクリック率について書いているGoogle検索エンジニアはキム・ヒョンジンだけではありません。

また、検索ランキングに影響を与える可能性のあるユーザーのクリック率とユーザーの行動からGoogleが学習する可能性について書いた、Navneet Panda(Google Panda Updateの名前にちなんで名付けられた特許)からの特許もいくつか見ました。

私はまた、誰かがそのページの品質の指標としてページに費やす可能性のある時間の長さを調べた特許をカバーする「ロングクリックと検索の成功の質」という投稿を書きました。 ロングクリックは、Googleのユーザーが注目している指標のようで、ユーザーのクリック率と密接に関連しています。