了解索引覆盖率报告

已发表: 2018-12-20

如果您在过去几周看到过这样的消息，请深呼吸并继续阅读！在本文中，我将分解为什么您会看到来自 Google Search Console 的覆盖问题以及如何解决这些问题。

什么是索引覆盖率报告

随着经过改进的 Google Search Console 的推出，有许多增强功能需要注意。其中一项功能是索引覆盖率报告，它概述了 Google 已编目（或编入索引）并将出现在 Google 搜索结果中的站点 URL 的数量。此报告以前位于旧版 Search Console 界面中的“索引状态”下：

旧与新

现在，可以在“索引”菜单下找到“索引覆盖率报告”，然后单击“覆盖率”。您将看到哪些网址存在索引错误、警告（或有效但有警告）、有效或已从 Google 索引中排除。为了正确理解这份报告，让我们探讨一下每个组的含义。

错误：这些页面目前没有提供给 Google 上的搜索者，但 Google 也认为这不是您的意图。

错误可以通过许多不同的方式触发，包括像 robots.txt 阻止爬虫从您提交索引的页面到更复杂的东西，例如服务器错误（500 级错误）。好消息？在您的网站管理员、数字营销机构或 Web 开发团队的帮助下，大多数这些错误都可以相对轻松地修复。

我们在 Top Floor 看到的更常见的错误是“已提交的 URL 被 robots.txt 阻止”和“已提交的 URL 标记为‘noindex’”。这些是不太险恶的错误，是通过通过 Google Search Console 提交用于索引的 URL 引起的而 robots.txt 文件不允许抓取到此 URL 或它包含 noindex 标记。这是一个相互矛盾的信号，因为您的网站既告诉搜索引擎不要抓取此页面或将其编入索引，同时又要求将其编入索引。 Google 会将其视为无意并将其标记为“错误”而不是“排除”（或故意取消索引）。

有关遇到错误的其他方法，请参见下文：

服务器错误 (5xx) ：服务器在请求时找不到 URL 并返回 500 级错误。
- 解决方案：与您的开发团队联系以修复此服务器端。如果没有适当的经验，其他团队在这里也无能为力。
重定向错误：与此 URL 关联的重定向链中存在问题。要么存在重定向循环，要么链中的 URL 存在 400 或 500 级错误。
- 解决方案：使用 Screaming Frog 或其他工具抓取 URL，并在重定向链中的一个 URL 中识别 400 或 500 级错误。如果不确定，请与您的数字营销机构联系，他们会为您检查。
提交的 URL 被 robots.txt 阻止：您提交此页面以在 Google Search Console 中编入索引，但该页面当前被 robots.txt 文件阻止。
- 解决方案：在 www.yoursite.com/robots.txt 上仔细检查您的 robots.txt 文件。确保以“disallow”开头的行没有引用您的 URL 所在的 URL 或子文件夹。您的数字营销机构可以帮助识别 robots.txt 中的任何问题。
提交的 URL 标记为“noindex ”：您提交此页面以进行索引，但该页面具有“noindex”元标记或 HTTP 标头。
- 解决方案：评估网址，您是否希望在 Google 搜索时找到此页面？如果这样做，只需删除元标记或 HTTP 标头。如果通过查看页面源代码 (Control + U) 找不到 noindex 标签，请询问您的数字营销机构或开发团队。
提交的 URL 似乎是软 404 ：您提交此页面用于索引，但 Google 认为此页面是软 404。
- 解决方案：软404错误是指页面显示404错误内容，但状态码不是404，而是200。检查页面，是否真的是错误页面，状态码不正确？有时，Google 会将内容较少的页面误解为软 404。无论哪种情况，请考虑使用 301 重定向将用户带到相关的实时页面。
未找到提交的 URL (404) ：您提交了一个 404 错误代码 URL 以通过 Google Search Console 进行索引。
- 解决方案：您不希望索引中出现错误页面，因为它提供了糟糕的用户体验。如果预计此页面在未来某个时候不会恢复为实时的 200 状态页面，则 301 会将其重定向到您网站上的相关内容。

警告：显示在“警告”或“带警告”部分下的 URL 被 Google 归类为“页面……可能需要您注意，根据具体结果可能已编入索引，也可能未编入索引”1

那么这是什么意思？对我来说，这意味着 Google 不确定如何处理 URL，但不情愿地将其编入索引。不管每个 URL 的情况如何，消除这种不确定性并深入研究每个 URL 被标记的原因。从我目前所见，归结为有人使用 robots.txt 文件作为去索引工具。由于几个原因，这是不正确的。

robots.txt 文件用于设置规则以防止搜索引擎抓取您网站的某些区域。如果某个 URL 正在向 Google 上的搜索者显示并且您希望它停止，请不要在您的 robots.txt 文件中添加 disallow 子句，因为这将暗示 Google 停止使用其抓取工具、蜘蛛程序或其他任何内容检查此页面你想给他们起的名字。要真正从 Google 或任何搜索引擎中获取 URL，请在 HTML 的 <head> 中或通过 HTTP 标头为其添加 noindex 标记。

尽管本文的重点是错误和警告，但让我们快速介绍有效和排除部分。

有效：很简单，这是一个已成功编入索引的 URL 列表。此处唯一要做的 QA 是针对您的 XML 站点地图，并确保您不会索引您不想要的内容。为此，只需单击“有效”框（通过一次仅突出显示一个框来消除混淆）并查看“详细信息”部分。

您将遇到两种主要的详细信息类型，“已提交并编入索引”和“已编入索引，未在站点地图中提交”：

已提交并编入索引：这是您网站中 Google 确认已成功编入索引的 URL 列表。
已编入索引，未在站点地图中提交：这些已编入索引的 URL 未出现在您的 XML 站点地图中。根据您的站点，通常不应有大量此类。如果您希望将 URL 编入索引，您应该帮助搜索引擎和您自己，并将它们添加到您的 XML 站点地图中。如果不确定如何执行此操作，请联系您的数字营销机构，他们可以适当地对您的站点地图进行质量检查。

排除：这些是有意从 Google 索引中排除的网址。这可以通过许多不同的途径发生，但 Google 认为您的网站已采取措施防止这些 URL 被搜索。这绝不是问题，并且是健康站点的一部分。内部资源，例如受密码保护的页面或由 WordPress 站点生成的图像 URL，应排除在索引之外，因为它们对于在线搜索者来说是糟糕的着陆页体验。

有问题吗？

如果您已阅读本文但仍不确定如何处理覆盖范围问题，请致电我们，我们的搜索营销团队将很乐意帮助您解决问题。