本页内容
n8n 是最受欢迎的工作流自动化平台之一,拥有 400 多个集成以及一个让复杂流水线变得简单的可视化构建器。CrawlForge MCP 为你的 n8n 工具箱增添了 20 个专用的 web scraping 工具——让你的自动化工作流能够获取页面、提取结构化数据、监控变化并运行深度研究,而无需编写一行 scraping 代码。
本指南将带你完成把 CrawlForge 连接到 n8n、构建你的第一个 scraping 工作流,以及扩展到生产级流水线的全过程。
目录
- 前置条件
- CrawlForge 如何与 n8n 协同工作
- 第 1 步:配置 HTTP Request 节点
- 第 2 步:构建价格监控工作流
- 第 3 步:添加调度与通知
- 进阶:多页爬取流水线
- credits 成本明细
- 常见错误与修复
- 后续步骤
前置条件
开始之前,你需要:
CrawlForge 如何与 n8n 协同工作
CrawlForge 在 https://crawlforge.dev/api/v1/tools/ 暴露了一个 REST API。20 个工具中的每一个都有自己的 endpoint。你可以从 n8n 的 HTTP Request 节点调用这些 endpoint,在 Authorization 头中传入你的 API key,在 JSON 请求体中传入工具参数。
流程如下所示:
Trigger (Schedule/Webhook) -> HTTP Request (CrawlForge) -> Transform Data -> Output (Slack/Email/DB)
无需安装自定义的 n8n 节点。无需 npm 包。只用标准的 HTTP 请求即可。
第 1 步:配置 HTTP Request 节点
打开 n8n 并新建一个工作流。添加一个 HTTP Request 节点并进行配置:
将 Authentication 设为 "Header Auth",并填入:
- Name:
Authorization - Value:
Bearer cf_live_your_api_key_here
点击 Execute Node 进行测试。你应该会在输出面板中看到从目标页面提取出的干净内容。这次调用花费 2 credits。
可复用的凭据设置
为避免在每个节点中重复填写 API key,可在 n8n 中创建一个 Header Auth 凭据:
- 进入 Settings > Credentials > Add Credential
- 选择 Header Auth
- 将 Name 设为
Authorization,Value 设为Bearer cf_live_xxxxx - 保存为 "CrawlForge API"
现在每个 HTTP Request 节点都可以引用这个凭据。
第 2 步:构建价格监控工作流
下面是一个实用的工作流,它每天监控竞争对手的价格页面,并在价格发生变化时发送 Slack 提醒。
工作流架构
Schedule Trigger (Daily 9am)
-> HTTP Request: CrawlForge scrape_structured
-> IF Node: Compare with yesterday's data
-> Slack Node: Send alert if changed
-> Google Sheets Node: Log all prices
scraping 节点
配置 HTTP Request 节点以使用 CrawlForge 的 scrape_structured 工具:
这次调用花费 2 credits。每天运行一次、持续 30 天 = 针对一个竞争对手 每月 60 credits。监控 10 个竞争对手每月仅需 600 credits——完全在 Hobby 套餐的范围内。
比较逻辑
使用 n8n 的 IF 节点将今天的价格与上一次运行的结果进行比较。Code 节点可以存储并比对数值:
第 3 步:添加调度与通知
Schedule Trigger
在工作流的开头添加一个 Schedule Trigger 节点:
- Trigger Interval:Every day
- Hour:9(在上午 9:00 运行)
- Timezone:你的本地时区
Slack 通知
在 IF 节点之后(true 分支)添加一个 Slack 节点:
Channel: #competitive-intel
Message: "Price change detected on competitor.com:
Previous: {{ $json.previousPrices }}
Current: {{ $json.currentPrices }}
Changed at: {{ $json.timestamp }}"
进阶:多页爬取流水线
对于更大规模的 scraping 任务,使用 CrawlForge 的 batch_scrape 工具,在一次 API 调用中处理多个 URL。
这会并行处理全部 5 个 URL,总共仅花费 5 credits——相比之下,5 次独立的 extract_content 调用每次 2 credits(共 10 credits)。批量处理在多 URL 任务上可节省 50%。
如果下游节点有需要,可使用 n8n 的 Split In Batches 节点逐个处理结果。
credits 成本明细
| 工作流 | 使用的工具 | 每次运行 credits | 每月(每日) |
|---|---|---|---|
| 单页提取 | extract_content | 2 | 60 |
| 价格监控(1 个站点) | scrape_structured | 2 | 60 |
| 批量 scrape(5 个 URL) | batch_scrape | 5 | 150 |
| 全站爬取 | crawl_deep | 5 | 150 |
| 研究流水线 | deep_research | 10 | 300 |
Free 套餐(1,000 个一次性 credits)足够支撑约 16 次每日单页 scraping,持续数周。Hobby 套餐($19/月,5,000 credits)可应对大多数生产工作流。
常见错误与修复
401 Unauthorized:你的 API key 缺失或无效。检查 Authorization 头的格式:Bearer cf_live_xxxxx。
429 Rate Limited:你每秒发送的请求过多。在 HTTP Request 节点之间添加一个延迟 1 秒的 Wait 节点,或使用 batch_scrape 来合并请求。
响应体为空:目标站点可能需要 JavaScript 渲染。对于动态页面,从 extract_content 切换到 scrape_with_actions(5 credits)。
后续步骤
现在你已经有了一个可用的 CrawlForge + n8n 流水线。在此基础上,你可以:
- 用 n8n 的 Error Trigger 节点添加错误处理
- 将结果存储到 PostgreSQL、Airtable 或 Google Sheets
- 串联工具——用
search_web找到 URL,再用extract_content处理它们 - 在 CrawlForge 文档中探索全部 20 个工具
要了解更多集成模式,请查看:
准备好自动化你的 web scraping 工作流了吗? 免费开始,赠送 1,000 个 credits——无需信用卡。