本页内容
今天我们发布 CrawlForge v4.2.2,这是自发布以来最大的一次更新。它带来了三个新工具、一个独立的命令行界面,以及我们对 AI web scraping 思路上的一次悄然转变:其中大部分应当在本地、在你自己的机器上运行,无需 API key。
本文是 4.2.2 全部内容的总览。接下来的九天里还有三篇深入指南。
目录
- 本次发布的内容
- 全新的 CrawlForge CLI
- Extract With LLM:本地 AI 提取
- Scrape Template:十个站点,一次调用
- list_ollama_models:免费模型发现
- 旧工作流 vs v4.2.2 工作流
- credits 费用
- 如何升级
- 接下来是什么
本次发布的内容
v4.2.2 新增了四样东西:
- crawlforge CLI —— 一个独立的命令行工具,随
crawlforge-mcp-server包一起发布,将全部 23 个 CrawlForge 工具暴露到你的终端。无需 MCP 客户端。 - extract_with_llm —— 由 LLM 驱动的结构化提取,默认使用本地 Ollama。无需外部 API key。
- scrape_template —— 为 Amazon、LinkedIn、GitHub、YouTube、Reddit、Hacker News、Stack Overflow、npm、Product Hunt 和 Twitter/X 预构建的 scraper。
- list_ollama_models —— 一个免费的发现工具,列出你本地 Ollama 实例上的模型。
工具数量从 20 增加到 23。CLI 是全新的 —— 它不是一个工具,而是一个分发渠道。
全新的 CrawlForge CLI
CLI 是从意图到抓取数据的最短路径。你只需安装一次、设置一个环境变量,每个 CrawlForge 工具就成为一条命令:
这为什么重要?因为 MCP 非常适合 AI agent,但很多 scraping 工作并不是 AI agent 的任务。它可能是一个 cron job、一个 CI 步骤、一次从终端发起的一次性抓取。对这些场景,你想要的是输出到 stdout、可以管道传给 jq 的 JSON,而不是 JSON-RPC 握手。
阅读完整的 CrawlForge CLI 指南,获取完整的命令参考和真实工作流。
Extract With LLM:本地 AI 提取
extract_with_llm 是由语言模型驱动的结构化提取。你给它一个 URL 和一个 schema,它返回 JSON。新的地方在于,它默认使用本地 Ollama,而不是调用 OpenAI 或 Anthropic。
本地优先的默认设置带来三点好处:
- 没有第三方 API 费用。 LLM 是免费的。你每次提取只需支付 3 个 CrawlForge credits。
- 数据不离开你的机器。 抓取的内容留在 localhost 上。
- 没有新的 API key 需要管理。 只要装了 Ollama,就可以开始了。
OpenAI 和 Anthropic 仍可通过 provider: "openai" 或 provider: "anthropic" 使用,适用于你需要前沿模型的场景。详细指南:使用本地 LLM 提取数据。
Scrape Template:十个站点,一次调用
scrape_template 面向那些看起来都一样的长尾 scraping 请求:「帮我拿 Amazon 的产品数据」「帮我拿某个 GitHub repo 的元数据」「帮我拿今天 Hacker News 上的热门帖子」。你不应该为这些去写 CSS 选择器。我们写一次、维护它,你直接调用。
本次发布包含十个模板:
| 模板 | 返回内容 | Credits |
|---|---|---|
amazon-product | 产品标题、价格、评分、评价、图片 | 1 |
linkedin-profile | 个人资料名称、头衔、所在地、简介 | 1 |
github-repo | Repo 元数据、stars、语言、主题 | 1 |
youtube-video | 视频标题、观看数、频道、描述 | 1 |
reddit-thread | 帖子标题、得分、作者、正文 | 1 |
hacker-news-front-page | 首页故事标题、points、URL、评论 | 1 |
stackoverflow-question | 问题、答案、是否被采纳、投票数 | 1 |
npm-package | 包元数据、每周下载量、版本 | 1 |
producthunt-launch | 产品名称、标语、upvotes、主题 | 1 |
tweet | 推文文本、作者、URL、图片 | 1 |
附带代码的完整演练:用一个工具 scraping Amazon、LinkedIn 和 GitHub。
list_ollama_models:免费模型发现
它最有用的场景是在运行 extract_with_llm 之前做一次快速检查。它列出你本地 Ollama 实例上的每个模型,包含名称、大小和修改日期。
费用为零 credits。它不做任何 scraping,也不调用任何 LLM —— 它只是查询 127.0.0.1:11434 上 Ollama 的本地 API 并返回结果。如果你曾好奇自己到底装了哪个模型,这就是答案。
旧工作流 vs v4.2.2 工作流
| 任务 | 4.2.2 之前 | v4.2.2 |
|---|---|---|
| 从终端 scraping | curl + 自定义解析器,或启动一个 Node REPL | crawlforge scrape <url> |
| 用 LLM 提取结构化数据 | extract_structured(CSS 选择器)或用 Puppeteer + OpenAI 自己实现 | extract_with_llm(默认 Ollama) |
| scraping Amazon、LinkedIn、GitHub | scrape_structured 配合手工维护的选择器 | scrape_template(选择器由我们维护) |
| 在 CI/cron 中运行 scraping | 在请求头里带 API key 的 curl | crawlforge <cmd> 配合环境变量 |
credits 费用
这三个新工具沿用我们现有的 credits 计费模型。没有意外:
| 工具 | Credits | 原因 |
|---|---|---|
list_ollama_models | 0 | 免费的发现助手 |
scrape_template | 1 | 单页面,预构建 schema |
extract_with_llm | 3 | LLM 推理(与提供商无关) |
CLI 本身是免费的。它使用你现有的 API key,并从你的常规 credits 余额中计费。
如何升级
现有用户无需做任何事。新工具已在所有套餐上线 —— Free、Hobby、Professional 和 Business —— 并会自动出现在你的 MCP 客户端中。
如果你想要 CLI:
如果你想尝试基于 Ollama 的提取:
接下来是什么
我们正在为 4.3 准备三样东西:
- 更多模板 —— Etsy、eBay、TikTok、Instagram、Google Maps。在 Discord 上把你的需求发给我们。
- batch_scrape 的 webhook 投递 —— 当长时间运行的任务完成时,将结果推送到你的 endpoint。
- CLI watch 模式 ——
crawlforge track --watch,对被监控的页面做实时 diff。
准备好试用新工具了吗? 免费开始,赠送 1,000 credits —— 无需信用卡。或者直接进入深入指南:CLI 指南、本地 LLM 提取,以及十个 scrape 模板。