SMX West2016のGoogleのランキングエンジニアであるPaulHaahrとのQ＆A

公開: 2021-10-08

最近、SEO業界は、Googleのスタッフメンバーからまれな透明性と洞察を受け取りました。具体的には、ランキングエンジニアリング部門のメンバーであり、Googleのアルゴリズムに直接貢献している人物です。

過去14年間GoogleのソフトウェアエンジニアであるPaulHaahrは、ランキングエンジニアとしての彼の観点から、3月にSMXWestでGoogleの仕組みについてプレゼンテーションを行いました。いくつかの報道：

完全なビデオはこちら。
ここで私の報道と考え。
Rae Hoffmanの取材はこちら（コメントをお見逃しなく！）。
リチャードバクスターのプレゼンテーションの完全なトランスクリプト。

この投稿では、GoogleのウェブマスタートレンドアナリストであるGary Iyllesが参加した、プレゼンテーション後にPaulが率いるQ＆A DannySullivanについて説明します。以下の完全なビデオ：

Q＆Aでは16の質問がありました。それらを一度に1つずつ取りましょう。

注：私は自分の理解に基づいて答えを言い換えます。完全な答えを見たい場合は、ビデオを見ることをお勧めします。各質問には、ダニーが質問するところまでビデオが埋め込まれています。

1.シャードは、さまざまな場所で全体的なインデックスの一部ですか？

インデックスは、すべてのシャードを合計したものです。

Googleには非常に大きなマシンの大規模なネットワークがあり、これらの非常に大きなマシンを満たすためにシャードサイズを選択します。シャードは、スケールの問題に対処するGoogleの方法であり、インデックスのサイズを管理しやすくしているようです。

2. RankBrainはこれらすべてにどのように適合しますか？

RankBrainには、アルゴリズム内の信号の特定のサブセットが提供されます（どの信号が不明）。
RankBrainは、信号を組み合わせてドキュメントを理解する方法について独自のアイデアを持っている機械学習（ディープラーニング？ポールはディープラーニングに自分自身を修正する）システムです。
GoogleはRankBrainがどのように機能するかを理解していますが（多くの努力の結果）、RankBrainが何をしているのかを正確に理解していません。
RankBrainは、Googleがディープラーニングについて公開したものの多くを使用しています。
RankBrainが行っていることの1つの層は、word2vecと単語の埋め込みです。
RankBrainは、クエリの存続期間の後半の取得後フェーズの後に開始されます。（ポールはこれを「ボックス」と呼んでいます）。

3. RankBrainはどのようにしてページの権限を知るのですか？どうやって品質を知るのですか？

RankBrainには、この機能を改善することを目的とした堅牢なトレーニングデータがあります。クエリやWebページに加えてシグナルも表示されます。

私には、RankBrainがページの権限や品質を決定する必要がないように聞こえます。その情報はすでに供給されています。

4.ランキングアルゴリズムの改良をテストする場合、Googleにはどのようなコンバージョン目標がありますか？すべての更新が測定される一貫した目標はありますか？

Googleには、基本的にユーザーが結果の2ページ目にクリックした頻度を測定する「次のページレート」と呼ばれる指標がありました。最初のページであるというコンセプトは素晴らしい結果ではありませんでした。ただし、これは簡単にゲーム/操作できます。

具体的には、空白を使用すると、ユーザーが検索の2ページ目にクリックする可能性が低くなります。

[ビデオのカットシーン]

注：同様の質問は、後で8:50の時点で行われます。質問＃8まで下にスクロールして、ビデオと回答を確認してください。

5.最初に行うことの1つは、クエリにエンティティが含まれているかどうかを判断することです。それはあなたが5年前にしたことでしたか？

それはナレッジグラフとナレッジパネルと同時に始まりました。それはそれらのプロセスの鍵です。

2011年にナレッジグラフをリリースする前は、Googleが行っていたことではありませんでした。

6.誰かがすべてのGoogleアプリにログインしている場合は、あなたが収集した情報によって区別できますか？ GoogleNowとGoogleChromeのどちらを使用しても、検索に影響を与えることができますか？

本当の問題は、ログインしているかどうかです。

ログインしている場合、Googleは検索のパーソナライズをもたらします。 Googleは、ユーザーの興味やGoogle Nowカードに表示されている内容に基づいて、一貫した検索エクスペリエンスをユーザーに提供したいと考えています。

ログインしていて、検索のパーソナライズをオフにしていない限り、検索エクスペリエンスにパーソナライズが適用されます。

ブックマークよりも、デバイス全体で検索をフォローする可能性が高くなります。

7. Googleは、1日のさまざまな時間に、同じクエリに対してさまざまな結果を提供しますか？ローカルマップは営業時間によって変化するようです。

PaulもGaryも確信が持てませんでしたが、どちらも営業時間はクエリに影響を与えないと考えていたようです。

Googleは、営業時間（および営業時間）を表示するように指示しますが、検索結果に地図が表示されるかどうかに時間は影響しないとは思われませんでした。

お店が閉まっている（または閉店間近）からといって、検索者が実際の場所に興味がないというわけではありません。

8. Googleは、人間の評価者を使った実験で、正または負の変化をどのように判断しますか？クエリによる勝者/敗者のレポートはありますか？

Googleには、各実験の概要レポートがあり、さまざまな指標（実験によって異なります）に従って実験がどのように実行されたかが示されています。これらの指標にはすべて、関連するすべてのクエリが含まれています。

勝ち負けには分類があります。前述の例（地図を表示する肥料クエリ）では、勝利として分類されました。人間はメトリックと結果を確認します。しかし、この場合、パウロは自分自身を、勝利として報告されている悪い結果を捕らえていると述べました。

パウロは、人間の評価者は概して素晴らしいと言っていますが、間違いを犯しています。具体的には、機能が付加価値をもたらさない場合でも、人間の評価者は特定の機能に興奮します。

9.パンダとペンギンはどうなっていますか？

パウロには答えがありません。彼は、パンダとペンギンの両方がスコアリングと検索の「ボックス」に考慮されていると言っています。

ダニーは焦点をゲイリーに向け直します。ゲイリーは過去6か月間、ペンギンが発売間近だと繰り返し言ったことで有名です。実際、ゲイリーはペンギンが新年（2016年1月）の前に発売されると言った。

明らかに、ゲイリーの予測はうまくいきませんでした。

ゲイリーは、ペンギンが発売される時期の報告をあきらめたと報告しています。彼はエンジニアが特にそれに取り組んでいることを知っていますが、3回間違えた後、彼は日付や時間枠を言う気がありません。

Paulは、新しいランキング信号とアルゴリズムを起動する長い反復サイクルについて再度言及します。

10：あなたは2年かかった打ち上げについて話しました。あのペンギンでしたか？

ポールが話し合った2年間の打ち上げは、ペンギンではありませんでした。

ローンチは、ランキングと機能の半分のローンチでした。これは、SERPの半分以上を占めるスペル修正の最初の試みであり、「意味がありますか」という機能ではなく、スペルミスの結果を示していました。

その機能の最初に起動された反復では、かなりの書き直しが必要でした（おそらくアルゴリズムに適合するため）。

11：あなたは与えられた著者の専門知識に言及します。トピックの作成者権限をどのように識別および追跡していますか？

ポールはここで詳細に立ち入ることはできません。ただし、実験中の人間の評価者は、表示されたページに対してこれを手動で行う必要があります。 Googleは、独自の指標を人間の評価者が見つけたものと比較し、それによって独自の指標を検証（または無効化）します。

12：著者の権限は、直接的または間接的なランキング要素として使用されていますか？

簡単な答えはありません。パウロはイエスかノーかを言うことはできません。質問が意味するよりも複雑です。

13：rel = authorを引き続き使用する必要がありますか？

ゲイリーは、rel = authorタグの使用を引き続き検討しているチームが少なくとも1つあると言います。

Garyは、新しいページのタグを作成することをお勧めしませんが、古いページからrel = authorタグを取得することもお勧めしません。タグは何も傷つけません、そしてそれは将来何かのために使われるかもしれません。

14：品質評価者がブランドの親しみやすさに偏りを持たないようにするにはどうすればよいですか？

実験の前に、人間の評価者は調査を行うように求められますが、ポールは彼らがしばしば偏見を持っていることを認めています。

Paulは、そのバイアスを打ち消すことを目的としたメトリックがあり、それらのメトリックは特に品質シグナルに含まれていないと述べています。

興味深いことに、ポールは、 「私たちが実際に見ているすべての指標を調べ始めたわけではありません」と率直に言っています。

したがって、実験の中で見られる関連性と品質を超えた多くの測定基準があることを意味します。

ポールは、「評価者は徹底した仕事をしているので、品質評価を取得する小さなサイトがたくさんあると言います。彼らはこれを理解するのが得意なようです」。

15：クリック率（CTR）はランキングシグナルですか？

Paulは、CTRが実験とパーソナライズに使用されていることを確認しています。

ただし、このメトリックはどのような状況でも使用するのが困難です。

ゲイリーは、管理されたグループであっても、エンゲージメントを正しく解釈するのは難しいと言っています。

Paulは、誤解を招くようなライブメトリックを使用して行われた多くの実験に同意します。彼が引用している例は、スニペットと、質問4で参照されている「次のページレート」です。

Paulはまた、検索結果の結果＃2と＃4を入れ替えた長期にわたるライブ実験を引用しています。これはランダム化されており、ユーザーの.02％のみが対象でした。結果？さらに多くの人が＃1の結果をクリックしました。ポールはこれを説明します：

「彼らは＃1-を見る-彼らはそれが好きかどうかわからない-彼らは2つを見るが、これは＃2よりもはるかに悪い。彼らは＃4にあるべきだった結果が実際、＃2はとてもひどいので、＃1をクリックしました。」
— SMX West2016のPaulHaahrが、型破りなクリック指標につながるGoogleのライブ実験について説明します。

Paulが引用しているもう1つの興味深いバイアスは、位置＃10が位置＃8と＃9を合わせた場合よりも「クリック数がはるかに多い」ということです。どうして？これは次のページの前の最後の結果であり、誰もクリックして次のページに移動したくないためです。

それでも、＃10はポジション＃7よりもパフォーマンスが劣ります。

このすべてのポイント？ CTRは使用するのが非常に難しい信号であり、多くの場合、奇妙なバイアスと予測できない人間の行動の結果です。

16：あなたは今何を読んでいますか？

パウロは「ジャーナリズムがたくさんあり、本がほとんどない」と読んでいます。彼はまた、サンフランシスコとマウンテンビューの間の通勤で多くのオーディオブックを聴いています。

ポールが言及している本：

ガースリスクホールバーグの火の街
とシンクレアルイス 'それはここでは起こりえない。

...そしてそれは終わりです！

質問？コメント？考え？それらを下に残してください！

SMX West2016のGoogleのランキングエンジニアであるPaulHaahrとのQ​​＆A