グラウンドホッグの更新はGoogleで行われただけですか?
公開: 2017-02-08
数日前に検索エンジンランドで実行されたストーリーは、Googleでの新しいアルゴリズムの可能性を私たちに知らせました:未確認のGoogleアルゴリズムの更新は、リンクとスパムの割引に優れている可能性があります。 その投稿を読む前に、私はちょうど新しいGoogle特許を読んだばかりで、その投稿は私にその特許を思い出させました。 特許は2017年1月31日に付与されました。特許に記載されているのは、検索エンジンランドで報告されたアップデートで人々が経験していたことである可能性があります。
特許の背後にあるアルゴリズムは、ランク付けされる可能性のあるリソースにリンクする可能性のあるリソースの数を含むランク付けに基づいています(スタンフォードのPageRank特許のように)。 歴史的に、Googleでは、リンクするリソースが多数あるページは、リンクするリソースが少ない他のページよりもランクが高くなる可能性があります。 しかし、グーグルがそれらのリソースを詳しく調べて、それらによって渡されたランキングの重みの一部を降格することを決定した場合はどうなるでしょうか? さまざまな量のPageRankを通過するリンクを持っていたReasonableSurfer特許で、Googleがそのようなことをする可能性があるという兆候を見てきました。 リンクとともに渡されるPageRankの量を変更する別の方法は、リソースがリンクから受信する可能性のあるトラフィックの量と、それらのリンクからのトラフィックの滞留時間(ショートクリック、ミディアムクリック、またはロングクリック。
このリンクアプローチでは、ソースリソースを指すリンクのアンカーテキストなど、リンクの他の側面も考慮することができます。これは、n-gramと見なされ、ページへのリンクに使用されるアンカーテキストのソーススコアを割り当てます。 。
これは、新しく付与された特許を初めて読んだときに出くわした興味深い声明でした。
検索結果のランキングは、スパム関連の検索結果を表示する検索クエリの傾向に基づいて調整できます。 ランキングプロセスでのリソースリンク数の重み付けは、スパム関連の検索結果を表示する傾向が高い検索クエリで減らすことができ、一部のリソースのリンク数がリンクの選択。
この特許は、リンク先のページのランキングで一部のリンクを割引するなど、使用する価値のある多くの利点があることを示しています。
この特許取得済みプロセスの利点
1)リソースへのリンクとそれらのリンクの選択に関するデータを使用して、リソースの検索結果をより正確にランク付けできます。
2)他のリソースに含まれるリソースへのリンクの数と、それらのリンクの選択の数に基づいて、リソースのシードスコアを決定できます。
3)それらのリソースのシードスコアによって示されるように、選択の数に対して不均衡な数のリンクを持つリソースへのリンクを含むソースリソースを特定できます。
4)これらの識別されたソースリソースからのリンクは、リソースへのリンクの数に基づいてリソースをランク付けするランク付けプロセスで割り引くことができます。
5)リンクに関するデータが利用できない、または不十分なリソースは、リソースへのリンクを含むリソースに関するデータを使用してスコアリングできます。
私が書いている特許はここにあり、時間をかけて使う価値があります。
リソースの品質基準を決定する
発明者:キム・ヒョンジン、ポール・ハール、キエン・ング、チョン・ティン・クォック、ムスタファ・A・ハマド、シュルット・カランジャー
譲受人:Google
米国特許:9,558,233
付与:2017年1月31日
提出日:2012年12月31日
概要:
リソースの品質の尺度を決定するための、コンピュータ記憶媒体にエンコードされたコンピュータプログラムを含む方法、システム、および装置。 一態様では、方法は、セット内の各シードリソースのシードスコアを決定することを含む。 シードリソースのシードスコアは、シードリソースへのリンクとリンクの選択の数を含むリソースの数に基づくことができます。 ソースリソースのセットが識別されます。 ソーススコアは、ソースリソースごとに決定されます。 ソースリソースのソーススコアは、ソースリソースによってリンクされている各シードリソースのシードスコアに基づいています。 ソース参照リソースが識別されます。 リソーススコアは、ソース参照リソースごとに決定されます。 ソース参照リソースのリソーススコアは、ソース参照リソースへのリンクを含む各ソースリソースのソーススコアに基づくことができます。
トラフィックをあまり生成しない多数のリンクに基づく降格
これは、私を驚かせた特許からの別の一節でした。それは、リンクに対して保持される可能性のある期待と一致しない可能性のある有害な結果を指摘したためです。
システムは、特定のWebリソースにリンクしている他のリソースの数と、リソースが受信するトラフィックの量に基づいて、特定のWebリソースの品質の尺度を決定できます。 例えば、ランク付けプロセスは、最初のウェブページにリンクする他のウェブページが多数ある最初のウェブページを、リンクするウェブページの数が少ないウェブページよりも高くランク付けすることができる。 ただし、一部のリソースは、リンクからのトラフィックをほとんど受信せずに、他の多数のリソースによってリンクされている場合があります。 たとえば、エンティティは、別のWebページのリソースへのリンクを含めることによってランキングプロセスをゲーム化しようとする場合があります。 この多数のリンクは、リソースのランキングを歪める可能性があります。 このようなスキューを防ぐために、システムは、リンクするリソースの数と、リンクするリソースからリソースに生成されるトラフィックとの間の「不一致」を評価できます。 リソースが、それらのリンクを使用して受信したトラフィックに対して不均衡な多数のリソースによってリンクされている場合、そのリソースはランク付けプロセスで降格される可能性があります。
リンクが原因でトラフィックがどのように決定される可能性がありますか?
リソースの評価は、「プルプッシュ」プロセスによって実行できます。 プルプッシュプロセスの例では、十分なリンクおよびトラフィックデータが利用可能なシードリソースのセットごとにシードスコアが決定されます。 特定のシードリソースのシードスコアは、シードリソースにリンクしているソースリソースの数と、ソースリソースからリソースに生成されたトラフィックの量に基づいています。 一部の実装では、特定のリソースのシードスコアは、特定のリソースへのリンクの選択数と、特定のリソースにリンクするソースリソースの数との比率です。
これらのシードスコアはソースリソースに「プル」され、各ソースリソースのソーススコアを決定するために使用されます。 一部の実装では、ソースリソースのソーススコアは、ソースリソースがリンクしている各シードリソースのシードスコアに基づいています。 これらのソーススコアを使用して、各ソースリソースを「修飾されたソース」または「修飾されていないソース」として分類できます。
資格がないと判断される可能性のあるソースからのリンクは、割引される可能性があります。
スパム関連のリソース
一部のクエリは、他のクエリよりも多くのスパムを生成する傾向があります。 特許は特に1つのグループを指しています。
たとえば、多くのビデオ共有Webサイトの発行者は、サイトへのリンクを作成してランキングを操作しようとします。その結果、選択数に比べてリンクの数が不均衡になりますが、全国のニュースWebサイトは通常そのような操作を試みません。
多くの場合、大量のスパムを生成する傾向があるクエリの場合、これらのリンクによって送信されるトラフィックと比較して、このリンクの計算では選択クリックに大きな価値が与えられる可能性があります。
スパム関連のWebページを表示する傾向が高いクエリの場合、システムは、検索結果をランク付けするときに、検索結果の選択数に高い重みを付け、検索結果のリソースリンク数に低い重みを付けることができます。 したがって、システムは、スパム関連のWebページを表示する傾向がある検索クエリのリソースリンク数よりもクリック数を「信頼」していると言えます。
選択品質スコアは滞留時間に基づく場合があります
リソースの品質スコアの計算に関連するプロセスの一部には、シードリソースのシードスコアの決定が含まれます。 これは、シードリソースのリンクリソース数を特定することから始めることができます。 これは、シードリソースへのリンクを含むリソースの数を調べることで実行できます。
その次の側面には、シードリソースの選択カウントを特定することが含まれます。 シードリソースのこの選択カウントは、他のリソースに含まれているシードリソースへのリンクが選択された回数に基づく場合があります。
選択品質スコアは、シードリソースへのリンクの選択の少なくとも一部に対して決定されます。 選択の選択品質スコアは、選択の品質の尺度であり、シードリソースのシードスコアを決定するときに低品質の選択を割り引くために使用できます。
これにより、In thePlexと呼ばれるStevenLevyの本の思い出がよみがえります。彼は、Googleの人々が前向きな見方をしていることが多い指標の1つは、「ロングクリック」と呼ばれる指標であると述べています。
特許は私達に告げています:
選択品質スコアは、滞留時間が長い(例えば、閾値期間より長い)選択の場合、滞留時間が短い(例えば、閾値時間未満)選択の選択品質スコアよりも高くなる可能性がある。限目)。 自動生成されたリンク選択は短時間であることが多いため、シードスコアを決定する際の滞留時間を考慮すると、これらの誤ったリンク選択の原因となる可能性があります。
この特許はまた、いくつかの歴史的な選択行動は、選択が自動化されたプロセスではなく実際のユーザーによって行われたことを示している可能性があることも示しています。
リソーススコアが比較的低いリソースはランキングで降格される可能性があり、リソーススコアが高いリソースはランキングでブーストされる可能性があります。
テイクアウト
この特許は、私がこの投稿で持っているよりもはるかに詳細な情報を提供しているので、読むことを強くお勧めします。 Web上のページを指すリンクに何らかの品質スコアを設定し、それらがどの程度の重みを渡すかを決定しようとしたのは、私が思い出すことができる最初のことです。 合理的なサーファー特許は、リンクがページに表示される方法(および場所)に関連する機能に基づいて重要である確率に基づいて、リンクが通過する可能性のある重みを決定するという点で異なりました。
私はTwitterで、この投稿の冒頭で述べた検索エンジンランドの投稿について書いていること、そしてGoogleでアルゴリズムの変更をもたらす可能性のある実装について推測したことを述べました。人々は気づいていました。 Jonathan Hochmanから、タイミングを考慮してGroundhog Updateと呼ぶことを検討し、2月の初めに有効になるようだという提案がありました。 この特許は1月の最終日に付与され、それ以前に実施されていた可能性がありますが、2月の初めに実施された可能性もあります。
Googleでアルゴリズム的に行われたのは、リソースに関連付けられたトラフィックに基づいてリソースをリンクすることの重み付けでしたか、それともスパムの結果に関連付けられたかどうかでしたか?

