CrawlForge v4.2.2 有哪些新功能？

v4.2.2 新增了三个工具（extract_with_llm、list_ollama_models、scrape_template）以及一个独立的 CLI，该 CLI 以 `crawlforge` 命令的形式随 crawlforge-mcp-server 包一起发布。工具数量从 20 增加到 23。CLI 是全新的，无需 MCP 客户端即可运行，因此你可以从任何终端、cron job 或 CI 流水线中使用 CrawlForge。

如果我已经在用 MCP，还需要 CrawlForge CLI 吗？

不需要。对于 AI agent（Claude、Cursor、Windsurf 等），MCP 仍然是最合适的选择。CLI 面向 scraping 工作的另一半 —— cron job、CI 步骤、从终端发起的一次性抓取 —— 在这些场景下，MCP 握手显得多余，你只想要输出到 stdout、可以管道传给 jq 的 JSON。

extract_with_llm 需要 OpenAI 或 Anthropic 的 API key 吗？

不需要。它默认使用本地 Ollama，完全在你的机器上运行，无需任何外部 API key。如果你想使用前沿模型，OpenAI 和 Anthropic 也作为可选提供商受支持，但默认路径是完全本地的。

scrape_template 支持哪些站点？

v4.2.2 支持十个站点：Amazon、LinkedIn、GitHub、YouTube、Reddit、Hacker News、Stack Overflow、npm、Product Hunt 和 Twitter/X。每次 scrape 收取 1 credit，返回站点专属的结构化 JSON，无需 CSS 选择器。

我该如何升级到 v4.2.2？

现有用户无需做任何事 —— 新工具已在所有套餐上线，并会自动出现在你的 MCP 客户端中。要安装新的 CLI，请运行 "npm install -g crawlforge-mcp-server" 并设置 CRAWLFORGE_API_KEY 环境变量。

CrawlForge v4.2.2：全新 CLI + 3 个本地 AI scraping 工具

今天我们发布 CrawlForge v4.2.2，这是自发布以来最大的一次更新。它带来了三个新工具、一个独立的命令行界面，以及我们对 AI web scraping 思路上的一次悄然转变：其中大部分应当在本地、在你自己的机器上运行，无需 API key。

本文是 4.2.2 全部内容的总览。接下来的九天里还有三篇深入指南。

本次发布的内容

v4.2.2 新增了四样东西：

crawlforge CLI —— 一个独立的命令行工具，随 crawlforge-mcp-server 包一起发布，将全部 23 个 CrawlForge 工具暴露到你的终端。无需 MCP 客户端。
extract_with_llm —— 由 LLM 驱动的结构化提取，默认使用本地 Ollama。无需外部 API key。
scrape_template —— 为 Amazon、LinkedIn、GitHub、YouTube、Reddit、Hacker News、Stack Overflow、npm、Product Hunt 和 Twitter/X 预构建的 scraper。
list_ollama_models —— 一个模型发现工具，列出你本地 Ollama 实例上的模型。

工具数量从 20 增加到 23。CLI 是全新的 —— 它不是一个工具，而是一个分发渠道。

全新的 CrawlForge CLI

CLI 是从意图到抓取数据的最短路径。你只需安装一次、设置一个环境变量，每个 CrawlForge 工具就成为一条命令：

Bash

npm install -g crawlforge-mcp-server
export CRAWLFORGE_API_KEY="cf_live_your_key_here"

crawlforge scrape https://example.com
crawlforge search "best MCP servers 2026"
crawlforge research "AI agent frameworks" --depth deep

这为什么重要？因为 MCP 非常适合 AI agent，但很多 scraping 工作并不是 AI agent 的任务。它可能是一个 cron job、一个 CI 步骤、一次从终端发起的一次性抓取。对这些场景，你想要的是输出到 stdout、可以管道传给 jq 的 JSON，而不是 JSON-RPC 握手。

阅读完整的 CrawlForge CLI 指南，获取完整的命令参考和真实工作流。

Extract With LLM：本地 AI 提取

extract_with_llm 是由语言模型驱动的结构化提取。你给它一个 URL 和一个 schema，它返回 JSON。新的地方在于，它默认使用本地 Ollama，而不是调用 OpenAI 或 Anthropic。

Typescript

// Pull structured data with a local model. No API key needed.
{
  "url": "https://news.ycombinator.com/item?id=123456",
  "schema": {
    "type": "object",
    "properties": {
      "title": { "type": "string" },
      "points": { "type": "number" },
      "comments": { "type": "number" }
    }
  },
  "provider": "ollama",
  "model": "llama3.1:8b"
}

本地优先的默认设置带来三点好处：

没有第三方 API 费用。 LLM 是免费的。你每次提取只需支付 3 个 CrawlForge credits。
数据不离开你的机器。 抓取的内容留在 localhost 上。
没有新的 API key 需要管理。 只要装了 Ollama，就可以开始了。

OpenAI 和 Anthropic 仍可通过 provider: "openai" 或 provider: "anthropic" 使用，适用于你需要前沿模型的场景。详细指南：使用本地 LLM 提取数据。

Scrape Template：十个站点，一次调用

scrape_template 面向那些看起来都一样的长尾 scraping 请求：「帮我拿 Amazon 的产品数据」「帮我拿某个 GitHub repo 的元数据」「帮我拿今天 Hacker News 上的热门帖子」。你不应该为这些去写 CSS 选择器。我们写一次、维护它，你直接调用。

Bash

crawlforge template amazon-product "https://www.amazon.com/dp/B0CHX1W1XY"
crawlforge template github-repo "https://github.com/anthropics/anthropic-sdk-python"
crawlforge template hacker-news-front-page "https://news.ycombinator.com"

本次发布包含十个模板：

模板	返回内容	Credits
`amazon-product`	产品标题、价格、评分、评价、图片	1
`linkedin-profile`	个人资料名称、头衔、所在地、简介	1
`github-repo`	Repo 元数据、stars、语言、主题	1
`youtube-video`	视频标题、观看数、频道、描述	1
`reddit-thread`	帖子标题、得分、作者、正文	1
`hacker-news-front-page`	首页故事标题、points、URL、评论	1
`stackoverflow-question`	问题、答案、是否被采纳、投票数	1
`npm-package`	包元数据、每周下载量、版本	1
`producthunt-launch`	产品名称、标语、upvotes、主题	1
`tweet`	推文文本、作者、URL、图片	1

附带代码的完整演练：用一个工具 scraping Amazon、LinkedIn 和 GitHub。

list_ollama_models：本地模型发现

它最有用的场景是在运行 extract_with_llm 之前做一次快速检查。它列出你本地 Ollama 实例上的每个模型，包含名称、大小和修改日期。

Bash

crawlforge extract --list-ollama-models

费用为1 credit。它不做任何 scraping，也不调用任何 LLM —— 它只是查询 127.0.0.1:11434 上 Ollama 的本地 API 并返回结果。如果你曾好奇自己到底装了哪个模型，这就是答案。

旧工作流 vs v4.2.2 工作流

任务	4.2.2 之前	v4.2.2
从终端 scraping	curl + 自定义解析器，或启动一个 Node REPL	`crawlforge scrape <url>`
用 LLM 提取结构化数据	`extract_structured`（CSS 选择器）或用 Puppeteer + OpenAI 自己实现	`extract_with_llm`（默认 Ollama）
scraping Amazon、LinkedIn、GitHub	`scrape_structured` 配合手工维护的选择器	`scrape_template`（选择器由我们维护）
在 CI/cron 中运行 scraping	在请求头里带 API key 的 curl	`crawlforge <cmd>` 配合环境变量

credits 费用

这三个新工具沿用我们现有的 credits 计费模型。没有意外：

工具	Credits	原因
`list_ollama_models`	1	模型发现助手
`scrape_template`	1	单页面，预构建 schema
`extract_with_llm`	3	LLM 推理（与提供商无关）

CLI 本身是免费的。它使用你现有的 API key，并从你的常规 credits 余额中计费。

如何升级

现有用户无需做任何事。新工具已在所有套餐上线 —— Free、Hobby、Professional 和 Business —— 并会自动出现在你的 MCP 客户端中。

如果你想要 CLI：

Bash

npm install -g crawlforge-mcp-server
export CRAWLFORGE_API_KEY="cf_live_..."
crawlforge --help

如果你想尝试基于 Ollama 的提取：

Bash

# 1. Install Ollama (one-time)
curl -fsSL https://ollama.com/install.sh | sh

# 2. Pull a model (llama3.1:8b is a good start)
ollama pull llama3.1:8b

# 3. Run extraction through CrawlForge
crawlforge extract https://example.com --provider ollama --model llama3.1:8b

接下来是什么

我们正在为 4.3 准备三样东西：

更多模板 —— Etsy、eBay、TikTok、Instagram、Google Maps。在 Discord 上把你的需求发给我们。
batch_scrape 的 webhook 投递 —— 当长时间运行的任务完成时，将结果推送到你的 endpoint。
CLI watch 模式 —— crawlforge track --watch，对被监控的页面做实时 diff。

准备好试用新工具了吗？ 免费开始，赠送 1,000 credits —— 无需信用卡。或者直接进入深入指南：CLI 指南、本地 LLM 提取，以及十个 scrape 模板。

本文是 4.2.2 全部内容的总览。接下来的九天里还有三篇深入指南。

本次发布的内容

v4.2.2 新增了四样东西：

crawlforge CLI —— 一个独立的命令行工具，随 crawlforge-mcp-server 包一起发布，将全部 23 个 CrawlForge 工具暴露到你的终端。无需 MCP 客户端。
extract_with_llm —— 由 LLM 驱动的结构化提取，默认使用本地 Ollama。无需外部 API key。
scrape_template —— 为 Amazon、LinkedIn、GitHub、YouTube、Reddit、Hacker News、Stack Overflow、npm、Product Hunt 和 Twitter/X 预构建的 scraper。
list_ollama_models —— 一个模型发现工具，列出你本地 Ollama 实例上的模型。

工具数量从 20 增加到 23。CLI 是全新的 —— 它不是一个工具，而是一个分发渠道。

全新的 CrawlForge CLI

CLI 是从意图到抓取数据的最短路径。你只需安装一次、设置一个环境变量，每个 CrawlForge 工具就成为一条命令：

Bash

npm install -g crawlforge-mcp-server
export CRAWLFORGE_API_KEY="cf_live_your_key_here"

crawlforge scrape https://example.com
crawlforge search "best MCP servers 2026"
crawlforge research "AI agent frameworks" --depth deep

阅读完整的 CrawlForge CLI 指南，获取完整的命令参考和真实工作流。

Extract With LLM：本地 AI 提取

Typescript

// Pull structured data with a local model. No API key needed.
{
  "url": "https://news.ycombinator.com/item?id=123456",
  "schema": {
    "type": "object",
    "properties": {
      "title": { "type": "string" },
      "points": { "type": "number" },
      "comments": { "type": "number" }
    }
  },
  "provider": "ollama",
  "model": "llama3.1:8b"
}

本地优先的默认设置带来三点好处：

没有第三方 API 费用。 LLM 是免费的。你每次提取只需支付 3 个 CrawlForge credits。
数据不离开你的机器。 抓取的内容留在 localhost 上。
没有新的 API key 需要管理。 只要装了 Ollama，就可以开始了。

OpenAI 和 Anthropic 仍可通过 provider: "openai" 或 provider: "anthropic" 使用，适用于你需要前沿模型的场景。详细指南：使用本地 LLM 提取数据。

Scrape Template：十个站点，一次调用

Bash

crawlforge template amazon-product "https://www.amazon.com/dp/B0CHX1W1XY"
crawlforge template github-repo "https://github.com/anthropics/anthropic-sdk-python"
crawlforge template hacker-news-front-page "https://news.ycombinator.com"

本次发布包含十个模板：

模板	返回内容	Credits
`amazon-product`	产品标题、价格、评分、评价、图片	1
`linkedin-profile`	个人资料名称、头衔、所在地、简介	1
`github-repo`	Repo 元数据、stars、语言、主题	1
`youtube-video`	视频标题、观看数、频道、描述	1
`reddit-thread`	帖子标题、得分、作者、正文	1
`hacker-news-front-page`	首页故事标题、points、URL、评论	1
`stackoverflow-question`	问题、答案、是否被采纳、投票数	1
`npm-package`	包元数据、每周下载量、版本	1
`producthunt-launch`	产品名称、标语、upvotes、主题	1
`tweet`	推文文本、作者、URL、图片	1

附带代码的完整演练：用一个工具 scraping Amazon、LinkedIn 和 GitHub。

list_ollama_models：本地模型发现

它最有用的场景是在运行 extract_with_llm 之前做一次快速检查。它列出你本地 Ollama 实例上的每个模型，包含名称、大小和修改日期。

Bash

crawlforge extract --list-ollama-models

旧工作流 vs v4.2.2 工作流

任务	4.2.2 之前	v4.2.2
从终端 scraping	curl + 自定义解析器，或启动一个 Node REPL	`crawlforge scrape <url>`
用 LLM 提取结构化数据	`extract_structured`（CSS 选择器）或用 Puppeteer + OpenAI 自己实现	`extract_with_llm`（默认 Ollama）
scraping Amazon、LinkedIn、GitHub	`scrape_structured` 配合手工维护的选择器	`scrape_template`（选择器由我们维护）
在 CI/cron 中运行 scraping	在请求头里带 API key 的 curl	`crawlforge <cmd>` 配合环境变量

credits 费用

这三个新工具沿用我们现有的 credits 计费模型。没有意外：

工具	Credits	原因
`list_ollama_models`	1	模型发现助手
`scrape_template`	1	单页面，预构建 schema
`extract_with_llm`	3	LLM 推理（与提供商无关）

CLI 本身是免费的。它使用你现有的 API key，并从你的常规 credits 余额中计费。

如何升级

现有用户无需做任何事。新工具已在所有套餐上线 —— Free、Hobby、Professional 和 Business —— 并会自动出现在你的 MCP 客户端中。

如果你想要 CLI：

Bash

npm install -g crawlforge-mcp-server
export CRAWLFORGE_API_KEY="cf_live_..."
crawlforge --help

如果你想尝试基于 Ollama 的提取：

Bash

# 1. Install Ollama (one-time)
curl -fsSL https://ollama.com/install.sh | sh

# 2. Pull a model (llama3.1:8b is a good start)
ollama pull llama3.1:8b

# 3. Run extraction through CrawlForge
crawlforge extract https://example.com --provider ollama --model llama3.1:8b

接下来是什么

我们正在为 4.3 准备三样东西：

更多模板 —— Etsy、eBay、TikTok、Instagram、Google Maps。在 Discord 上把你的需求发给我们。
batch_scrape 的 webhook 投递 —— 当长时间运行的任务完成时，将结果推送到你的 endpoint。
CLI watch 模式 —— crawlforge track --watch，对被监控的页面做实时 diff。

准备好试用新工具了吗？ 免费开始，赠送 1,000 credits —— 无需信用卡。或者直接进入深入指南：CLI 指南、本地 LLM 提取，以及十个 scrape 模板。

本页内容

目录

本次发布的内容

全新的 CrawlForge CLI

Extract With LLM：本地 AI 提取

Scrape Template：十个站点，一次调用

list_ollama_models：本地模型发现

旧工作流 vs v4.2.2 工作流

credits 费用

如何升级

接下来是什么

亲自试一试——无需注册

标签

关于作者

CrawlForge Team

及时获取最新洞察

Frequently Asked Questions

相关文章

CrawlForge v4.8.0：可自动激活的 Claude Skills

CrawlForge MCP 现已上线：为 AI agent 提供免费 web scraping

一个 MCP server 集成 18 个网页抓取工具：CrawlForge 完整指南

本页内容

目录

本次发布的内容

全新的 CrawlForge CLI

Extract With LLM：本地 AI 提取

Scrape Template：十个站点，一次调用

list_ollama_models：本地模型发现

旧工作流 vs v4.2.2 工作流

credits 费用

如何升级

接下来是什么

亲自试一试——无需注册

标签

关于作者

CrawlForge Team

及时获取最新洞察

Frequently Asked Questions

相关文章

CrawlForge v4.8.0：可自动激活的 Claude Skills

CrawlForge MCP 现已上线：为 AI agent 提供免费 web scraping

一个 MCP server 集成 18 个网页抓取工具：CrawlForge 完整指南