谷歌发布了一份新的 Robots.txt 指南,详细阐述了 Robots.txt 如何帮助发布者和 SEO 专家控制搜索引擎爬虫及其他遵循 Robots.txt 协议的机器人。该文档涵盖了屏蔽特定页面(如购物车)、限制特定机器人访问以及通过简单规则管理爬虫行为的具体示例。
从基础到进阶
新文档快速介绍了 Robots.txt 的基本概念,并逐步深入探讨了发布者和 SEO 专家如何利用 Robots.txt 以及它为他们带来的益处。
文档第一部分的核心在于介绍 robots.txt 作为一种稳定的网络协议,拥有 30 年的历史,并得到了搜索引擎及其他爬虫程序的广泛支持。
如果缺少 Robots.txt 文件,Google Search Console 会报告 404 错误信息。这种情况发生是正常的,但如果你在 GSC 中看到这个警告感到困扰,可以等待 30 天,警告会自动消失。另一个选择是创建一个空白的 Robots.txt 文件,这也是 Google 所接受的。
谷歌的新文档解释道:
如果您的整个网站允许被爬取,您可以保持 robots.txt 文件为空(或根本不创建),也可以添加规则来管理爬取行为。
它涵盖了基础内容,如针对特定页面或部分设置限制的自定义规则。
Robots.txt 的高级应用涵盖了以下功能:
- 针对不同爬虫设置规则:可以针对不同的爬虫设置不同的规则。
- 阻止特定 URL 模式:能够阻止诸如 PDF 文件或搜索页面之类的 URL 模式。
- 精细化控制特定机器人程序:实现对特定机器人程序的精细化控制。
- 添加注释用于内部说明:支持添加注释用于内部说明。
新文档最后提到,编辑 robots.txt 文件非常简单(它是一个包含简单规则的文本文件),所以你只需要一个简单的文本编辑器即可。许多内容管理系统都提供了编辑 robots.txt 文件的方法,也有一些工具可以用来测试 robots.txt 文件的语法是否正确。
在这里阅读新robots.txt文档:Robots Refresher: robots.txt — a flexible way to control how machines explore your website
阅读更多
- 美国司法部反垄断诉讼提出四种拆分谷歌垄断的方案
- Google 的 Martin Splitt 警告不要将 404 重定向到主页
- Google搜索行为研究:AI概览(AIOs)对点击率的影响及行业差异分析
原创文章,作者:佑元SEO,如若转载,请注明出处:https://www.ycsu.com/673.html