与 Paul Haahr 的问答，Google 的排名工程师，SMX West 2016

已发表: 2021-10-08

最近，搜索引擎优化行业从一位谷歌员工那里获得了罕见的透明度和洞察力。特别是他们排名工程部门的成员：直接为 Google 的算法做出贡献的人。

Paul Haahr 是 Google 过去 14 年的软件工程师，他在 3 月的 SMX West 上从他作为排名工程师的角度介绍了 Google 的工作原理。几篇报道：

完整视频在这里。
我的报道和想法在这里。
Rae Hoffman 在这里的报道（不要错过评论！）。
理查德·巴克斯特 (Richard Baxter) 的完整演讲稿。

这篇文章将介绍 Danny Sullivan 在演讲后由 Paul 主持的问答，Google 的网站站长趋势分析师 Gary Iylles 也加入了他的行列。完整视频如下：

问答环节共提出 16 个问题。让我们一次带他们一个。

注意：我将根据我自己的理解来解释答案。如果您想观看完整的答案，我建议您观看视频。每个问题都嵌入了 Danny 提出问题的视频。

1.分片在各个地方都是整体索引的一部分吗？

索引是所有分片的总和。

谷歌拥有一个由非常大的机器组成的庞大网络，他们选择分片大小来填充这些非常大的机器。听起来分片是谷歌处理规模问题的方式，使索引的大小易于管理。

2. RankBrain 如何适应这一切？

RankBrain 在算法中提供了某些信号子集（不清楚是哪些信号）。
RankBrain 是一个机器学习（深度学习？保罗纠正自己为深度学习）系统，在如何组合信号和理解文档方面有自己的想法。
Google 了解 RankBrain 的工作原理（经过很多努力），但他们不了解它究竟在做什么。
RankBrain 使用了谷歌发布的关于深度学习的大部分内容。
RankBrain 正在做的一层是 word2vec 和词嵌入。
RankBrain 在查询生命周期的后期检索后阶段之后启动。（保罗将此称为“盒子”）。

3. RankBrain 如何知道一个页面的权限？它如何知道质量？

RankBrain 拥有强大的训练数据，旨在改进此功能。除了查询和网页之外，它还能看到信号。

对我来说，听起来好像 RankBrain 不需要确定页面的权威或质量。它已经提供了这些信息。

4. 谷歌在测试排名算法优化时有哪些转化目标？是否有一致的目标来衡量所有更新？

谷歌曾经有一个名为“下一页率”的指标，它基本上衡量人们点击进入第二页结果的频率。作为第一页的概念并不是很好的结果。然而，这很容易被游戏/操纵。

具体来说，空白会降低人们点击搜索第二页的可能性。

【视频中的剪辑场景】

注意：稍后在 8:50 标记处提出了类似的问题。向下滚动到问题 #8 以查看视频和回复。

5. 您要做的第一件事是确定查询是否包含实体。那是你五年前做的事吗？

这与知识图谱和知识面板同时开始。这是这些过程的关键。

谷歌在 2011 年推出知识图谱之前并没有这样做。

6. 如果有人登录了任何Google 应用，您是否通过收集的信息进行区分？使用 Google Now 和 Google Chrome 会影响搜索吗？

真正的问题是您是否已登录。

如果您已登录，Google 会引入搜索个性化功能。 Google 希望根据您的兴趣以及 Google 即时卡片中显示的内容为用户提供一致的搜索体验。

只要您已登录，并且未关闭搜索个性化，您的搜索体验就会有个性化。

与书签相比，您更有可能在您的设备上进行搜索。

7. 谷歌是否在一天中的不同时间为同一查询提供不同的结果？当地地图似乎随着营业时间而变化。

保罗和加里都不确定，尽管他们似乎都认为营业时间不会影响查询。

如果商家关门，谷歌会强调显示关门时间（和营业时间），但两者似乎都不认为营业时间会影响搜索结果中是否存在地图。

仅仅因为企业关闭（或接近关闭）并不意味着搜索者对其物理位置不感兴趣。

8. 谷歌如何确定人类评估者实验中的积极或消极变化？是否有通过查询生成的赢家/输家报告？

谷歌对每个实验都有一个总结报告，根据一系列不同的指标（根据实验而异），实验如何执行，所有这些都包括所涉及的每个查询。

有输赢的分类。在前面提到的例子中——显示地图的肥料查询——它被归类为胜利。人类审查指标和结果。然而，在这种情况下，保罗称自己为抓住了被报告为胜利的糟糕结果。

保罗指出，人类评估者总的来说很棒，但也会犯错误。具体来说，人类评估者会对某些功能感到兴奋，即使这些功能没有增加价值。

9. 熊猫和企鹅怎么了？

保罗没有答案。他确实指出熊猫和企鹅都被计入了评分和检索“盒子”。

丹尼将焦点转移到加里身上，加里因在过去六个月中反复说企鹅快推出而臭名昭著。事实上，加里说企鹅将在新年（2016 年 1 月）之前推出。

显然，加里的预测并没有实现。

加里报告说他已经放弃报道企鹅号将推出的时间。他知道工程师们正在专门从事这项工作，但在犯了 3 次错误之后，他不愿意说出日期或时间表。

Paul 再次提到了启动新排名信号和算法的漫长迭代周期。

10：你谈到了一项耗时两年的发布。那是企鹅吗？

保罗讨论的两年发布不是企鹅。

此次发布是一次半排名半功能的发布。这是他们第一次尝试拼写更正，占据了一半以上的 SERP，显示了拼写错误的结果，而不是“你是不是意思”功能。

该功能的第一次启动迭代需要大量重写（大概是为了适应算法）。

11：您提到了特定作者的专业知识。您如何识别和跟踪主题的作者权限？

保罗不能在这里详述。但是，实验中的人工评估员的任务是手动为他们看到的页面执行此操作。谷歌将他们自己的指标与人工评估者的发现进行比较，从而验证（或使）他们自己的指标无效。

12：作者权威是用作直接还是间接排名因素？

没有简单的答案：保罗不能说是或否。这比问题所暗示的要复杂。

13：我们应该继续为 rel=author 烦恼吗？

Gary 说至少有一个团队会继续考虑使用 rel=author 标签。

Gary 不建议为新页面创建标签，但也不建议从旧页面中提取 rel=author 标签。标签不会伤害任何东西，将来可能会用于某些事情。

14：您如何避免质量评估者产生品牌熟悉度偏见？

在实验之前，人类评估者被要求做研究，但保罗承认他们经常有偏见。

保罗说，有一些衡量标准旨在抵消这种偏见，而这些衡量标准并不在质量信号中。

有趣的是，保罗漫不经心地说： “我还没有开始仔细研究我们实际查看的所有指标。”

这意味着，在实验中，除了相关性和质量之外，还有许多指标。

保罗指出，有很多小网站都获得了质量评级，“因为评级员做得很彻底。他们似乎很擅长解决这个问题。”

15：点击率（CTR）是排名信号吗？

Paul 确认 CTR 用于实验以及个性化。

但是，在任何情况下使用该指标都具有挑战性。

加里插话说，即使是受控群体，也很难正确解释参与度。

保罗同意许多已经完成的实验都具有误导性的实时指标。他引用的例子是片段，以及问题#4 中提到的“下一页率”。

保罗还引用了一个长期运行的实时实验，该实验在搜索结果中交换了结果 #2 和 #4。它是随机的，仅适用于 0.02% 的用户。结果？更多的人点击了#1 结果。保罗解释了这一点：

“他们看到#1——他们不知道他们是否喜欢它——他们看两个，这确实比#2糟糕得多，他们放弃了，因为本应在#4的结果却是实际上在#2 的时候太糟糕了，他们点击了#1。”
— Paul Haahr 在 SMX West 2016 上，解释了导致非常规点击指标的 Google 现场实验。

保罗引用的另一个有趣的偏见是，第 10 位的点击次数比第 8 位和第 9 位加起来要“多得多”。为什么？因为它是下一页之前的最后一个结果，没有人想点击到下一页。

即便如此，#10 的表现也比位置 #7 差。

这一切的重点是什么？ CTR 是一个极难使用的信号，通常是奇怪的偏见和不可预测的人类行为的结果。

16：你现在在读什么？

保罗读“很多新闻，很少读书”。他还在旧金山和山景城之间的通勤途中听了很多有声读物。

保罗提到的书：

Garth Risk Hallberg 的城市着火
和辛克莱刘易斯的这不可能发生在这里。

......这是一个包装！

问题？注释？想法？把它们留在下面！

与 Paul Haahr 的问答，Google 的排名工程师，SMX West 2016

1.分片在各个地方都是整体索引的一部分吗？

2. RankBrain 如何适应这一切？

3. RankBrain 如何知道一个页面的权限？ 它如何知道质量？

4. 谷歌在测试排名算法优化时有哪些转化目标？ 是否有一致的目标来衡量所有更新？

5. 您要做的第一件事是确定查询是否包含实体。 那是你五年前做的事吗？

6. 如果有人登录了任何Google 应用，您是否通过收集的信息进行区分？ 使用 Google Now 和 Google Chrome 会影响搜索吗？

7. 谷歌是否在一天中的不同时间为同一查询提供不同的结果？ 当地地图似乎随着营业时间而变化。

8. 谷歌如何确定人类评估者实验中的积极或消极变化？ 是否有通过查询生成的赢家/输家报告？