模拟 Googlebot 等爬虫将 robots.txt 的 Allow/Disallow 规则应用到具体 URL 的行为。
| URL | UA | 结果 | 匹配规则 |
|---|---|---|---|
| https://example.com/ | Googlebot | 允许 | L10: allow: / |
| https://example.com/admin/ | Googlebot | 允许 | L10: allow: / |
| https://example.com/admin/public/login | Googlebot | 允许 | L10: allow: / |
| https://example.com/private/file.pdf | Googlebot | 允许 | L10: allow: / |
| https://example.com/no-google/page | Googlebot | 阻止 | L9: disallow: /no-google/ |
| https://example.com/blog/post-1 | Googlebot | 允许 | L10: allow: / |
| https://example.com/ | GPTBot | 阻止 | L13: disallow: / |
| https://example.com/admin/ | GPTBot | 阻止 | L13: disallow: / |
| https://example.com/admin/public/login | GPTBot | 阻止 | L13: disallow: / |
| https://example.com/private/file.pdf | GPTBot | 阻止 | L13: disallow: / |
| https://example.com/no-google/page | GPTBot | 阻止 | L13: disallow: / |
| https://example.com/blog/post-1 | GPTBot | 阻止 | L13: disallow: / |
为 Article、Product、FAQ、LocalBusiness、Person、Event、Breadcrumbs 生成 schema.org JSON-LD 标记。表单驱动,复制即用。
构建带有 utm_source / utm_medium / utm_campaign 参数的可追踪 URL。自动生成 QR 码。兼容 GA4 / Universal Analytics。
粘贴 HTML 即可预览 Facebook、Twitter、LinkedIn、Slack 上的分享卡片效果。
在浏览器中验证 sitemap.xml 的结构、lastmod 格式、hreflang 备用项以及 URL 数量上限。
robots.txt 是每个域名 /robots.txt 路径上的文件,告诉爬虫 — Googlebot、Bingbot、GPTBot、ClaudeBot 等数百个机器人 — 可以或不可以请求哪些路径。主要使用 Allow 与 Disallow 两条指令,以及为特定机器人限定规则的 User-agent 分组。匹配规则乍看直观,实际上很快就变得棘手: User-agent 优先级是「最长精确匹配胜出,否则回退到 *」;路径优先级是「最长模式胜出,同等时 Allow 胜出 Disallow」;通配符 * 与 $ 也有微妙含义。一个放错位置的末尾斜杠可能把 /admin/ 目录泄露给所有搜索引擎;过于宽泛的 Disallow 可能让整个站点从索引中消失。本 Robots.txt 测试器解析您粘贴的 robots.txt 内容,可选择一个或多个 User-Agent(Googlebot、GPTBot、ClaudeBot 等)与 URL 列表,精确展示每个 URL 会匹配第几行的哪条规则 — 完全遵循 Google 公开的匹配规范。
按照 Google 规范: (1) UA 匹配 — 名称是爬虫名最长(忽略大小写)前缀匹配的 User-agent 分组胜出;仅当没有具体分组匹配时,User-agent: * 才会生效。(2) 路径匹配 — 在所选分组的全部 Allow/Disallow 规则中,模式(不含通配符)最长的一条胜出。如果两条模式同等具体,Allow 胜出 Disallow。(3) 通配符 — * 匹配任意字符序列,模式末尾的 $ 锚定 URL 末尾。Crawl-delay 为非标准指令,Google 会忽略(Bing 与 Yandex 仍会尊重)。