Mô phỏng cách Googlebot và các crawler khác áp dụng luật Allow/Disallow từ robots.txt cho từng URL cụ thể.
| URL | UA | Kết quả | Luật khớp |
|---|---|---|---|
| https://example.com/ | Googlebot | Cho phép | L10: allow: / |
| https://example.com/admin/ | Googlebot | Cho phép | L10: allow: / |
| https://example.com/admin/public/login | Googlebot | Cho phép | L10: allow: / |
| https://example.com/private/file.pdf | Googlebot | Cho phép | L10: allow: / |
| https://example.com/no-google/page | Googlebot | Chặn | L9: disallow: /no-google/ |
| https://example.com/blog/post-1 | Googlebot | Cho phép | L10: allow: / |
| https://example.com/ | GPTBot | Chặn | L13: disallow: / |
| https://example.com/admin/ | GPTBot | Chặn | L13: disallow: / |
| https://example.com/admin/public/login | GPTBot | Chặn | L13: disallow: / |
| https://example.com/private/file.pdf | GPTBot | Chặn | L13: disallow: / |
| https://example.com/no-google/page | GPTBot | Chặn | L13: disallow: / |
| https://example.com/blog/post-1 | GPTBot | Chặn | L13: disallow: / |
Tạo schema.org JSON-LD cho Article, Product, FAQ, LocalBusiness, Person, Event, Breadcrumbs. Form-based, dán sẵn.
Tạo URL có thể tracking với utm_source / utm_medium / utm_campaign. QR code tự sinh. Tương thích GA4 / Universal Analytics.
Dán HTML và xem trước Facebook, Twitter, LinkedIn, Slack sẽ hiển thị thẻ chia sẻ của bạn ra sao.
Kiểm tra cấu trúc sitemap.xml, định dạng lastmod, hreflang alternates và giới hạn số URL — chạy ngay trên trình duyệt.
robots.txt là file tại /robots.txt trên mọi domain, nói cho crawler — Googlebot, Bingbot, GPTBot, ClaudeBot, và hàng trăm bot khác — biết đường dẫn nào chúng được request hay không. Nó dùng hai directive chính, Allow và Disallow, cộng với nhóm User-agent để giới hạn luật cho bot cụ thể. Luật match nghe đơn giản nhưng nhanh chóng phức tạp: precedence User-agent là "longest exact match thắng, rồi fallback về *"; precedence path là "pattern dài nhất thắng, hoà bằng thì Allow thắng"; và wildcard * với $ có ý nghĩa tinh tế. Một dấu / cuối đặt sai có thể leak thư mục /admin/ cho mọi search engine; một Disallow quá rộng có thể deindex toàn bộ site. Công cụ Robots.txt Tester này parse bất kỳ body robots.txt nào bạn dán, cho phép chọn một hay nhiều user-agent (Googlebot, GPTBot, ClaudeBot...) và danh sách URL, rồi hiển thị chính xác luật nào ở dòng nào sẽ match từng URL — implement theo spec match công khai của Google.
Theo spec Google: (1) Match UA — nhóm User-agent có tên là longest case-insensitive prefix match của tên crawler thắng; chỉ khi không nhóm cụ thể nào match thì User-agent: * mới áp dụng. (2) Match path — trong tất cả luật Allow/Disallow của nhóm đã chọn, luật có pattern dài nhất (không tính wildcard) thắng. Nếu hai pattern bằng độ cụ thể, Allow thắng Disallow. (3) Wildcard — * khớp bất kỳ chuỗi ký tự nào, và $ ở cuối pattern neo cuối URL. Crawl-delay không chuẩn và bị Google bỏ qua (nhưng Bing/Yandex tôn trọng).