Robots.txt 完全指南:如何控制搜索引擎抓取
Robots.txt 告诉搜索引擎爬虫哪些页面应该访问、哪些应该跳过。正确配置的 robots.txt 可以保护抓取预算,防止低价值页面被索引。使用我们的 Robots.txt 生成器 快速创建。
基础语法
User-agent: *
Disallow: /admin/
Sitemap: https://example.com/sitemap.xml
User-agent:适用哪个爬虫,* 表示所有。Disallow:禁止访问的路径。Allow:例外路径。Sitemap:Sitemap 文件位置。
应该屏蔽什么
后台管理页面、站内搜索结果、筛选/分面 URL、测试环境、登录页面、API 端点。不要屏蔽影响页面渲染的 CSS、JS 或图片文件。
不应屏蔽什么
绝不要屏蔽你希望被索引的页面。用 noindex 元标签控制索引。Robots.txt 只控制抓取,不直接控制索引。
测试方法
使用我们的 Robots.txt 生成与测试工具:粘贴 URL 查看是否会被规则拦截。同时使用 Google Search Console 的 robots.txt 测试器。
常见错误
屏蔽 CSS/JS(破坏渲染)、使用 Disallow: / 屏蔽整站、忘记添加 sitemap 位置、将 robots.txt 当作安全工具。
核心要点
屏蔽低价值路径,保持 CSS/JS 可访问,用我们的 Robots.txt 测试器 验证规则,添加 sitemap 链接。
使用免费 Robots.txt 生成器创建你的抓取规则。