爬取4 credits

crawl_deep

通过智能广度优先搜索、URL 过滤和可配置的深度控制来发现并爬取整个网站。遵守 robots.txt 和爬取延迟。

使用场景

站点架构分析

发现所有页面并了解网站结构，用于 SEO 审计

内容发现

自动查找所有博客文章、产品或文档页面

竞品情报

映射竞争对手网站并发现新产品或新功能

失效链接检测

爬取站点以查找 404、重定向和失效的内部链接

数据迁移

在迁移或归档网站之前发现所有页面

站点地图生成

为 SEO 或文档创建全面的站点地图

Endpoint

POST/api/v1/tools/crawl_deep

Auth Required

Free 计划 2 req/s

4 credits

Parameters

Name	Type	Required	Default	Description
url	string	Required	-	爬取的起始 URL（必须为同一域名） Example: https://example.com
maxDepth	number	Optional	3	最大爬取深度（1-10 层） Example: 5
maxPages	number	Optional	100	最多爬取的页面数（1-1000） Example: 500
includePatterns	string[]	Optional	-	仅爬取匹配这些正则表达式的 URL Example: ["/blog/.", "/products/."]
excludePatterns	string[]	Optional	-	跳过匹配这些正则表达式的 URL Example: ["/admin/.", ".\\.(pdf\|zip)$"]
respectRobotsTxt	boolean	Optional	true	遵守 robots.txt 指令 Example: true
sameDomain	boolean	Optional	true	仅爬取同一域名下的 URL Example: true
crawlDelay	number	Optional	1000	请求之间的延迟（毫秒，100-5000） Example: 2000

请求示例

terminalBash

curl -X POST https://crawlforge.dev/api/v1/tools/crawl_deep \
  -H "X-API-Key: cf_test_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "maxDepth": 5,
    "maxPages": 500,
    "includePatterns": ["/blog/.*", "/products/.*"],
    "excludePatterns": ["/admin/.*", ".*\\.(pdf|zip)$"],
    "respectRobotsTxt": true,
    "crawlDelay": 2000
  }'

响应示例

200 OK45,200ms

{
  "success": true,
  "data": {
    "startUrl": "https://example.com",
    "pagesDiscovered": 487,
    "pagesCrawled": 487,
    "maxDepthReached": 5,
    "robotsTxtRespected": true,
    "crawlStarted": "2025-10-01T12:00:00Z",
    "crawlCompleted": "2025-10-01T12:00:45Z",
    "urls": [
      {
        "url": "https://example.com",
        "depth": 0,
        "status": 200,
        "title": "Example Domain",
        "linksFound": 15
      },
      {
        "url": "https://example.com/blog",
        "depth": 1,
        "status": 200,
        "title": "Blog - Example",
        "linksFound": 42
      },
      {
        "url": "https://example.com/blog/post-1",
        "depth": 2,
        "status": 200,
        "title": "First Blog Post",
        "linksFound": 8
      }
    ],
    "statistics": {
      "status200": 450,
      "status301": 20,
      "status404": 15,
      "status500": 2,
      "avgResponseTime": 234,
      "totalSize": 12500000
    }
  },
  "credits_used": 4,
  "credits_remaining": 996,
  "processing_time": 45200
}

Field Descriptions

data.pagesDiscovered爬取过程中找到的唯一 URL 总数

data.pagesCrawled成功抓取的页面数

data.maxDepthReached达到的最大深度层级

data.urls包含元数据的所有已发现 URL 数组

data.statistics爬取统计汇总

credits_used每次爬取请求 4 credits（固定费用）

processing_time总爬取时长（因站点规模而异）

错误处理

Robots.txt 被阻止（403 Forbidden）

站点的 robots.txt 禁止爬取。设置 respectRobotsTxt=false 可覆盖（请负责任地使用）。

达到最大页面数（200 OK 并附带警告）

爬取已在 maxPages 限制处停止。请提高限制或更精确地过滤 URL。

无效的模式（400 Bad Request）

includePatterns 或 excludePatterns 包含无效的正则表达式。请检查模式语法。

credits 不足（402 Payment Required）

credits 会预先预留（按估算）。在开始大型爬取之前请先添加更多 credits。

专业提示： 使用 includePatterns 仅爬取特定板块（例如 /blog/）。这能节省 credits 并缩短爬取时间。遵守 crawlDelay 以避免给较小的站点带来过大压力——建议设为 1-2 秒。

credits 费用

4 credits

每次请求 4 credits

无论发现多少页面，每次爬取请求均为固定费用。每次请求最多可爬取 1,000 个页面。

包含内容：

每次爬取最多 1,000 个页面

可配置深度（1-10 层）

URL 模式过滤

robots.txt 处理

完整的爬取统计

计划推荐：

Free 计划： 1,000 个一次性试用 credits = 250 次爬取请求

Hobby 计划： 5,000 credits = 1,250 次爬取请求（$19/mo）

Professional 计划： 50,000 credits = 12,500 次爬取请求（$99/mo）

相关工具

map_site

无需完整爬取即可快速发现站点地图（2 credits）

batch_scrape

并行抓取已发现的 URL（5 credits）

extract_links

从单个页面提取链接（1 credit）

screenshot

捕获已发现页面的截图（2 credits）

准备好试用 crawl_deep 了吗？免费注册并获得 1,000 credits 开始构建。

使用场景

站点架构分析

发现所有页面并了解网站结构，用于 SEO 审计

内容发现

自动查找所有博客文章、产品或文档页面

竞品情报

映射竞争对手网站并发现新产品或新功能

失效链接检测

爬取站点以查找 404、重定向和失效的内部链接

数据迁移

在迁移或归档网站之前发现所有页面

站点地图生成

为 SEO 或文档创建全面的站点地图

Parameters

Name	Type	Required	Default	Description
url	string	Required	-	爬取的起始 URL（必须为同一域名） Example: https://example.com
maxDepth	number	Optional	3	最大爬取深度（1-10 层） Example: 5
maxPages	number	Optional	100	最多爬取的页面数（1-1000） Example: 500
includePatterns	string[]	Optional	-	仅爬取匹配这些正则表达式的 URL Example: ["/blog/.", "/products/."]
excludePatterns	string[]	Optional	-	跳过匹配这些正则表达式的 URL Example: ["/admin/.", ".\\.(pdf\|zip)$"]
respectRobotsTxt	boolean	Optional	true	遵守 robots.txt 指令 Example: true
sameDomain	boolean	Optional	true	仅爬取同一域名下的 URL Example: true
crawlDelay	number	Optional	1000	请求之间的延迟（毫秒，100-5000） Example: 2000

请求示例

terminalBash

curl -X POST https://crawlforge.dev/api/v1/tools/crawl_deep \
  -H "X-API-Key: cf_test_YOUR_KEY" \
  -H "Content-Type: application/json" \
  -d '{
    "url": "https://example.com",
    "maxDepth": 5,
    "maxPages": 500,
    "includePatterns": ["/blog/.*", "/products/.*"],
    "excludePatterns": ["/admin/.*", ".*\\.(pdf|zip)$"],
    "respectRobotsTxt": true,
    "crawlDelay": 2000
  }'

响应示例

200 OK45,200ms

{
  "success": true,
  "data": {
    "startUrl": "https://example.com",
    "pagesDiscovered": 487,
    "pagesCrawled": 487,
    "maxDepthReached": 5,
    "robotsTxtRespected": true,
    "crawlStarted": "2025-10-01T12:00:00Z",
    "crawlCompleted": "2025-10-01T12:00:45Z",
    "urls": [
      {
        "url": "https://example.com",
        "depth": 0,
        "status": 200,
        "title": "Example Domain",
        "linksFound": 15
      },
      {
        "url": "https://example.com/blog",
        "depth": 1,
        "status": 200,
        "title": "Blog - Example",
        "linksFound": 42
      },
      {
        "url": "https://example.com/blog/post-1",
        "depth": 2,
        "status": 200,
        "title": "First Blog Post",
        "linksFound": 8
      }
    ],
    "statistics": {
      "status200": 450,
      "status301": 20,
      "status404": 15,
      "status500": 2,
      "avgResponseTime": 234,
      "totalSize": 12500000
    }
  },
  "credits_used": 4,
  "credits_remaining": 996,
  "processing_time": 45200
}

Field Descriptions

data.pagesDiscovered爬取过程中找到的唯一 URL 总数

data.pagesCrawled成功抓取的页面数

data.maxDepthReached达到的最大深度层级

data.urls包含元数据的所有已发现 URL 数组

data.statistics爬取统计汇总

credits_used每次爬取请求 4 credits（固定费用）

processing_time总爬取时长（因站点规模而异）

错误处理

Robots.txt 被阻止（403 Forbidden）

站点的 robots.txt 禁止爬取。设置 respectRobotsTxt=false 可覆盖（请负责任地使用）。

达到最大页面数（200 OK 并附带警告）

爬取已在 maxPages 限制处停止。请提高限制或更精确地过滤 URL。

无效的模式（400 Bad Request）

includePatterns 或 excludePatterns 包含无效的正则表达式。请检查模式语法。

credits 不足（402 Payment Required）

credits 会预先预留（按估算）。在开始大型爬取之前请先添加更多 credits。

credits 费用

4 credits

每次请求 4 credits

无论发现多少页面，每次爬取请求均为固定费用。每次请求最多可爬取 1,000 个页面。

包含内容：

每次爬取最多 1,000 个页面

可配置深度（1-10 层）

URL 模式过滤

robots.txt 处理

完整的爬取统计

计划推荐：

Free 计划： 1,000 个一次性试用 credits = 250 次爬取请求

Hobby 计划： 5,000 credits = 1,250 次爬取请求（$19/mo）

Professional 计划： 50,000 credits = 12,500 次爬取请求（$99/mo）