谷歌发布了一份新的 Robots.txt 指南，详细阐述了 Robots.txt 如何帮助发布者和 SEO 专家控制搜索引擎爬虫及其他遵循 Robots.txt 协议的机器人。该文档涵盖了屏蔽特定页面（如购物车）、限制特定机器人访问以及通过简单规则管理爬虫行为的具体示例。

从基础到进阶

新文档快速介绍了 Robots.txt 的基本概念，并逐步深入探讨了发布者和 SEO 专家如何利用 Robots.txt 以及它为他们带来的益处。

文档第一部分的核心在于介绍 robots.txt 作为一种稳定的网络协议，拥有 30 年的历史，并得到了搜索引擎及其他爬虫程序的广泛支持。

如果缺少 Robots.txt 文件，Google Search Console 会报告 404 错误信息。这种情况发生是正常的，但如果你在 GSC 中看到这个警告感到困扰，可以等待 30 天，警告会自动消失。另一个选择是创建一个空白的 Robots.txt 文件，这也是 Google 所接受的。

谷歌的新文档解释道：

如果您的整个网站允许被爬取，您可以保持 robots.txt 文件为空（或根本不创建），也可以添加规则来管理爬取行为。

它涵盖了基础内容，如针对特定页面或部分设置限制的自定义规则。

Robots.txt 的高级应用涵盖了以下功能：

针对不同爬虫设置规则：可以针对不同的爬虫设置不同的规则。
阻止特定 URL 模式：能够阻止诸如 PDF 文件或搜索页面之类的 URL 模式。
精细化控制特定机器人程序：实现对特定机器人程序的精细化控制。
添加注释用于内部说明：支持添加注释用于内部说明。

新文档最后提到，编辑 robots.txt 文件非常简单（它是一个包含简单规则的文本文件），所以你只需要一个简单的文本编辑器即可。许多内容管理系统都提供了编辑 robots.txt 文件的方法，也有一些工具可以用来测试 robots.txt 文件的语法是否正确。

在这里阅读新robots.txt文档：Robots Refresher: robots.txt — a flexible way to control how machines explore your website

原创文章，作者：佑元SEO，如若转载，请注明出处：https://www.ycsu.com/673.html

Google发布新版Robots.txt协议指南

从基础到进阶

关于作者

佑元SEO

发表回复

Google发布新版Robots.txt协议指南

从基础到进阶

关于作者

佑元SEO

相关推荐

发表回复