使用场景
站点架构分析
发现所有页面并了解网站结构,用于 SEO 审计
内容发现
自动查找所有博客文章、产品或文档页面
竞品情报
映射竞争对手网站并发现新产品或新功能
失效链接检测
爬取站点以查找 404、重定向和失效的内部链接
数据迁移
在迁移或归档网站之前发现所有页面
站点地图生成
为 SEO 或文档创建全面的站点地图
Endpoint
POST
/api/v1/tools/crawl_deepAuth Required
Free 计划 2 req/s
4 credits
Parameters
| Name | Type | Required | Default | Description |
|---|---|---|---|---|
url | string | Required | - | 爬取的起始 URL(必须为同一域名) Example: https://example.com |
maxDepth | number | Optional | 3 | 最大爬取深度(1-10 层) Example: 5 |
maxPages | number | Optional | 100 | 最多爬取的页面数(1-1000) Example: 500 |
includePatterns | string[] | Optional | - | 仅爬取匹配这些正则表达式的 URL Example: ["/blog/.*", "/products/.*"] |
excludePatterns | string[] | Optional | - | 跳过匹配这些正则表达式的 URL Example: ["/admin/.*", ".*\\.(pdf|zip)$"] |
respectRobotsTxt | boolean | Optional | true | 遵守 robots.txt 指令 Example: true |
sameDomain | boolean | Optional | true | 仅爬取同一域名下的 URL Example: true |
crawlDelay | number | Optional | 1000 | 请求之间的延迟(毫秒,100-5000) Example: 2000 |
请求示例
terminalBash
响应示例
200 OK45,200ms
{ "success": true, "data": { "startUrl": "https://example.com", "pagesDiscovered": 487, "pagesCrawled": 487, "maxDepthReached": 5, "robotsTxtRespected": true, "crawlStarted": "2025-10-01T12:00:00Z", "crawlCompleted": "2025-10-01T12:00:45Z", "urls": [ { "url": "https://example.com", "depth": 0, "status": 200, "title": "Example Domain", "linksFound": 15 }, { "url": "https://example.com/blog", "depth": 1, "status": 200, "title": "Blog - Example", "linksFound": 42 }, { "url": "https://example.com/blog/post-1", "depth": 2, "status": 200, "title": "First Blog Post", "linksFound": 8 } ], "statistics": { "status200": 450, "status301": 20, "status404": 15, "status500": 2, "avgResponseTime": 234, "totalSize": 12500000 } }, "credits_used": 4, "credits_remaining": 996, "processing_time": 45200}Field Descriptions
data.pagesDiscovered爬取过程中找到的唯一 URL 总数data.pagesCrawled成功抓取的页面数data.maxDepthReached达到的最大深度层级data.urls包含元数据的所有已发现 URL 数组data.statistics爬取统计汇总credits_used每次爬取请求 4 credits(固定费用)processing_time总爬取时长(因站点规模而异)错误处理
Robots.txt 被阻止(403 Forbidden)
站点的 robots.txt 禁止爬取。设置 respectRobotsTxt=false 可覆盖(请负责任地使用)。
达到最大页面数(200 OK 并附带警告)
爬取已在 maxPages 限制处停止。请提高限制或更精确地过滤 URL。
无效的模式(400 Bad Request)
includePatterns 或 excludePatterns 包含无效的正则表达式。请检查模式语法。
credits 不足(402 Payment Required)
credits 会预先预留(按估算)。在开始大型爬取之前请先添加更多 credits。
专业提示: 使用 includePatterns 仅爬取特定板块(例如 /blog/)。这能节省 credits 并缩短爬取时间。遵守 crawlDelay 以避免给较小的站点带来过大压力——建议设为 1-2 秒。
credits 费用
4 credits
每次请求 4 credits
无论发现多少页面,每次爬取请求均为固定费用。每次请求最多可爬取 1,000 个页面。
包含内容:
每次爬取最多 1,000 个页面
可配置深度(1-10 层)
URL 模式过滤
robots.txt 处理
完整的爬取统计
计划推荐:
Free 计划: 1,000 个一次性试用 credits = 250 次爬取请求
Hobby 计划: 5,000 credits = 1,250 次爬取请求($19/mo)
Professional 计划: 50,000 credits = 12,500 次爬取请求($99/mo)
相关工具
准备好试用 crawl_deep 了吗?免费注册并获得 1,000 credits 开始构建。