本页内容
大多数 AI 工具都热衷于做 agent。CrawlForge CLI 则恰恰相反:可脚本化、终端优先、行为可预测。你只需安装它、设置一个环境变量,CrawlForge 的全部 23 个工具就会变成 shell 命令。JSON 输入,JSON 输出。管道传给 jq、用 cron 定时、在 CI 中运行 —— 它在任何地方的工作方式都一样。
目录
- 什么是 CrawlForge CLI?
- 30 秒完成安装
- 15 个命令速览
- 你的第一次抓取
- 将 JSON 输出管道传给 jq
- 用 cron 定时调度
- CLI vs MCP vs 原始 API
- 三个真实世界的工作流
- 全局参数参考
- 它的成本
什么是 CrawlForge CLI?
CrawlForge CLI 随 crawlforge-mcp-server 包一起发布,对应 crawlforge 命令,将全部 23 个 CrawlForge 工具暴露为终端命令。一次全局安装即可同时获得 MCP server 和 CLI。它不需要长期运行的进程,也不需要 MCP 客户端:你输入 crawlforge scrape <url>,它便向 CrawlForge 的 API 发起一次 HTTPS 调用,并将 JSON 打印到 stdout。整个流程就是这样。
它之所以存在,是因为人们所做的抓取工作中有一半并不是 agent 形态的。cron 定时任务、CI 步骤、一次性研究、从 shell 临时拉取数据 —— 这些都需要朴素的命令,而不是一次 JSON-RPC 握手。
30 秒完成安装
就这么简单。没有配置文件,没有认证流程,没有需要启动的服务。如果你还没有 API key,可前往 crawlforge.dev/signup 获取 —— 注册即享 1,000 个免费 credits。
要在 macOS 或 Linux 上让环境变量永久生效:
在 Windows 上(PowerShell):
15 个命令速览
每个命令都映射到一个或多个 CrawlForge 工具:
| 命令 | 主要工具 | Credits | 示例 |
|---|---|---|---|
scrape | fetch_url、extract_content | 1-2 | crawlforge scrape https://example.com |
search | search_web | 5 | crawlforge search "MCP servers 2026" |
crawl | crawl_deep | 4 | crawlforge crawl https://docs.example.com --depth 3 |
map | map_site | 2 | crawlforge map https://example.com |
extract | extract_with_llm | 3 | crawlforge extract <url> --schema schema.json |
track | track_changes | 3 | crawlforge track <url> --threshold 10 |
analyze | analyze_content | 3 | crawlforge analyze <url> |
research | deep_research | 10 | crawlforge research "AI agents in 2026" |
stealth | stealth_mode | 5 | crawlforge stealth <url> |
batch | batch_scrape | 5 | crawlforge batch urls.txt |
actions | scrape_with_actions | 5 | crawlforge actions <url> --script steps.json |
localize | localization | 2 | crawlforge localize <url> --country DE |
llmstxt | generate_llms_txt | 5 | crawlforge llmstxt https://example.com |
template | scrape_template | 1 | crawlforge template amazon-product <url> |
monitor | track_changes | 3 | crawlforge monitor <url> --interval 3600 |
你的第一次抓取
最简单的一次调用:
返回的是该页面的主要内容,以 JSON 形式呈现:
只想要 URL?管道传给 jq:
想把它存到文件里?重定向 stdout:
将 JSON 输出管道传给 jq
正是这个工作流让 CLI 值得安装。一切都输出 JSON,而 JSON 可以管道传给任何工具。
获取 HN 首页的报道标题:
搜索网页并提取 URL:
抓取一个页面并统计词数:
批量抓取,再筛选出错误响应:
模式很清晰:--json 给你机器可读的输出,再用 jq 进行切分处理。
用 cron 定时调度
每天检查一次竞品的定价页面:
每晚运行一次研究任务:
每周为你自己的站点重新生成一次 llms.txt:
在 CI 中?在你的 GitHub Actions YAML 里使用相同的命令即可。CLI 会优先检查 CRAWLFORGE_API_KEY,所以只需把它设为仓库密钥。
CLI vs MCP vs 原始 API:何时使用哪一种
| 工作流 | 使用 CLI | 使用 MCP | 使用原始 API |
|---|---|---|---|
| 从终端进行一次性抓取 | 是 | 否 | 否 |
| cron 定时任务或 CI 步骤 | 是 | 否 | 仅在必要时 |
| Claude / Cursor / Windsurf agent | 否 | 是 | 否 |
| 嵌入 Node/Python 服务中 | 否 | 仅当 MCP 形态时 | 是 |
| 长期运行的后台 worker | 否 | 否 | 是 |
| 快速探索一个陌生站点 | 是 | 也许 | 否 |
经验法则:如果是人在输入命令,用 CLI;如果是 LLM 在选择工具,用 MCP;如果是服务器在循环中调用,用原始 API。
三个真实世界的工作流
1. 竞品价格监控器
一个每天运行的 shell 脚本,抓取三个竞品的定价页面,与昨天的快照做对比,如有变化就推送到 Slack。
成本:每天约 9 credits(3 个竞品 × track 的 3 credits)。
2. 从 CSV 进行线索丰富
读取一份包含公司域名的 CSV,抓取每个主页的联系信息,再把丰富后的数据写回。
成本:每家公司 1 credit。
3. 研究报告流水线
每周日运行一次 cron,执行一次 research 查询,并将综合后的摘要邮件发送给团队。
成本:每次运行 10 credits(research 已包含综合摘要)。
全局参数参考
这些参数适用于每个命令:
--json—— 紧凑、机器可读的 JSON(适合管道)--pretty—— 美化打印的 JSON--quiet—— 抑制所有 stdout 输出(仅返回退出码)--api-key <key>—— 覆盖CRAWLFORGE_API_KEY环境变量--timeout <ms>—— 覆盖默认的 30 秒超时
要将结果写入文件,重定向 stdout:crawlforge scrape <url> --pretty > out.json。
它的成本
CLI 本身是免费的。你只需为底层的工具调用付费,从你现有的 credit 余额中扣除。没有额外订阅,也没有按次调用的费用。一个每天对三个 URL 运行 track、每周运行一次 research 的 cron 任务,每月大约花费 100 credits —— 完全在免费套餐范围之内。
准备好安装了吗? 在 crawlforge.dev/signup 获取你的免费 API key,并运行 npm install -g crawlforge-mcp-server。初次接触?阅读 v4.2.2 发布公告了解全部新内容,或阅读原始的 MCP 快速上手了解 MCP 版本。