Robots.txt 完全指南：如何控制搜索引擎抓取

实用的 robots.txt 教程。涵盖语法规则、最佳实践、规则生成及 URL 拦截测试方法。

Robots.txt 告诉搜索引擎爬虫哪些页面应该访问、哪些应该跳过。正确配置的 robots.txt 可以保护抓取预算，防止低价值页面被索引。使用我们的 Robots.txt 生成器快速创建。

基础语法

User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml

User-agent：适用哪个爬虫，* 表示所有。Disallow：禁止访问的路径。Allow：例外路径。Sitemap：Sitemap 文件位置。

后台管理页面、站内搜索结果、筛选/分面 URL、测试环境、登录页面、API 端点。不要屏蔽影响页面渲染的 CSS、JS 或图片文件。

绝不要屏蔽你希望被索引的页面。用 noindex 元标签控制索引。Robots.txt 只控制抓取，不直接控制索引。

使用我们的 Robots.txt 生成与测试工具：粘贴 URL 查看是否会被规则拦截。同时使用 Google Search Console 的 robots.txt 测试器。

屏蔽 CSS/JS（破坏渲染）、使用 Disallow: / 屏蔽整站、忘记添加 sitemap 位置、将 robots.txt 当作安全工具。

屏蔽低价值路径，保持 CSS/JS 可访问，用我们的 Robots.txt 测试器验证规则，添加 sitemap 链接。

使用免费 Robots.txt 生成器创建你的抓取规则。