CrawlForge
首页应用场景集成价格文档博客
  1. 首页
  2. /
  3. 术语表
  4. /
  5. Robots.txt

Robots.txt

网页抓取

定义

Robots.txt 是放置在网站根目录的标准文本文件,它告诉网络爬虫哪些页面允许或禁止访问。它是机器人排除协议(Robots Exclusion Protocol)的一部分。

与 CrawlForge 的关联

robots.txt 文件相当于一套面向爬虫的准则。尽管它不具法律约束力,但遵守它被视为合乎道德的抓取的标准做法。它规定了哪些路径禁止访问、抓取延迟偏好以及指向 XML 站点地图的链接。

CrawlForge 工具默认遵守 robots.txt 指令。在使用 crawl_deep 或 map_site 时,爬虫会在访问页面前检查 robots.txt,确保你的抓取活动符合站点所有者声明的偏好。

相关 CrawlForge 工具

crawl_deep
5 credits
map_site
3 credits

相关术语

网络爬虫

网络爬虫是一种通过在页面之间跟随链接来系统性地浏览网络的程序。爬虫可以在整个网站或域名范围内发现并索引内容。

站点地图

站点地图是一个列出网站上所有 URL 的 XML 文件,同时附带最后修改日期和优先级等元数据。它帮助搜索引擎和爬虫高效地发现并索引所有页面。

速率限制

速率限制是网站和 API 用来控制客户端在给定时间段内可发起请求数量的一种技术。它可防止服务器过载,并抵御滥用性抓取。

User Agent

User Agent 是在 HTTP 请求头中发送的字符串,用于标识发起请求的客户端软件。网站借此检测浏览器、机器人和抓取器。

立即领取 1,000 个免费 credits 开始抓取

立即开始使用 CrawlForge,无需信用卡。

领取 1,000 个免费 credits 开始抓取

页脚

CrawlForge

面向 AI Agent 的企业级网页抓取。23 个专业 MCP 工具,专为构建智能系统的现代开发者而设计。

产品

  • 功能
  • 价格
  • 应用场景
  • 集成
  • 替代方案
  • 更新日志

资源

  • 快速上手
  • API 参考
  • 模板
  • 指南
  • 博客
  • 术语表
  • 常见问题
  • 网站地图

开发者

  • MCP 协议
  • Claude Desktop
  • Cursor IDE
  • LangChain
  • LlamaIndex

公司

  • 关于我们
  • 联系我们
  • 隐私政策
  • 服务条款

保持更新

获取新工具和新功能的最新动态。

基于 Next.js 和 MCP 协议构建

© 2025-2026 CrawlForge。保留所有权利。