CrawlForge
首页应用场景集成价格文档博客
CrawlForge v4.2.2:全新 CLI + 3 个本地 AI scraping 工具
Product Updates
返回博客
产品更新

CrawlForge v4.2.2:全新 CLI + 3 个本地 AI scraping 工具

C
CrawlForge Team
工程团队
2026年5月18日
阅读时长 6 分钟

本页内容

快速解答

CrawlForge v4.2.2 带来了一个独立的 CLI(打包在 crawlforge-mcp-server 包中)和三个新工具:用于通过 Ollama 进行本地 AI 提取的 extract_with_llm、用于免费发现模型的 list_ollama_models,以及用于对 10 个热门站点进行一行式 scraping 的 scrape_template。该 CLI 可在任何能运行 npm 的地方使用,且无需 MCP 客户端。通过 `npm install -g crawlforge-mcp-server` 安装。

今天我们发布 CrawlForge v4.2.2,这是自发布以来最大的一次更新。它带来了三个新工具、一个独立的命令行界面,以及我们对 AI web scraping 思路上的一次悄然转变:其中大部分应当在本地、在你自己的机器上运行,无需 API key。

本文是 4.2.2 全部内容的总览。接下来的九天里还有三篇深入指南。

目录

  • 本次发布的内容
  • 全新的 CrawlForge CLI
  • Extract With LLM:本地 AI 提取
  • Scrape Template:十个站点,一次调用
  • list_ollama_models:免费模型发现
  • 旧工作流 vs v4.2.2 工作流
  • credits 费用
  • 如何升级
  • 接下来是什么

本次发布的内容

v4.2.2 新增了四样东西:

  1. crawlforge CLI —— 一个独立的命令行工具,随 crawlforge-mcp-server 包一起发布,将全部 23 个 CrawlForge 工具暴露到你的终端。无需 MCP 客户端。
  2. extract_with_llm —— 由 LLM 驱动的结构化提取,默认使用本地 Ollama。无需外部 API key。
  3. scrape_template —— 为 Amazon、LinkedIn、GitHub、YouTube、Reddit、Hacker News、Stack Overflow、npm、Product Hunt 和 Twitter/X 预构建的 scraper。
  4. list_ollama_models —— 一个免费的发现工具,列出你本地 Ollama 实例上的模型。

工具数量从 20 增加到 23。CLI 是全新的 —— 它不是一个工具,而是一个分发渠道。

全新的 CrawlForge CLI

CLI 是从意图到抓取数据的最短路径。你只需安装一次、设置一个环境变量,每个 CrawlForge 工具就成为一条命令:

Bash

这为什么重要?因为 MCP 非常适合 AI agent,但很多 scraping 工作并不是 AI agent 的任务。它可能是一个 cron job、一个 CI 步骤、一次从终端发起的一次性抓取。对这些场景,你想要的是输出到 stdout、可以管道传给 jq 的 JSON,而不是 JSON-RPC 握手。

阅读完整的 CrawlForge CLI 指南,获取完整的命令参考和真实工作流。

Extract With LLM:本地 AI 提取

extract_with_llm 是由语言模型驱动的结构化提取。你给它一个 URL 和一个 schema,它返回 JSON。新的地方在于,它默认使用本地 Ollama,而不是调用 OpenAI 或 Anthropic。

Typescript

本地优先的默认设置带来三点好处:

  • 没有第三方 API 费用。 LLM 是免费的。你每次提取只需支付 3 个 CrawlForge credits。
  • 数据不离开你的机器。 抓取的内容留在 localhost 上。
  • 没有新的 API key 需要管理。 只要装了 Ollama,就可以开始了。

OpenAI 和 Anthropic 仍可通过 provider: "openai" 或 provider: "anthropic" 使用,适用于你需要前沿模型的场景。详细指南:使用本地 LLM 提取数据。

Scrape Template:十个站点,一次调用

scrape_template 面向那些看起来都一样的长尾 scraping 请求:「帮我拿 Amazon 的产品数据」「帮我拿某个 GitHub repo 的元数据」「帮我拿今天 Hacker News 上的热门帖子」。你不应该为这些去写 CSS 选择器。我们写一次、维护它,你直接调用。

Bash

本次发布包含十个模板:

模板返回内容Credits
amazon-product产品标题、价格、评分、评价、图片1
linkedin-profile个人资料名称、头衔、所在地、简介1
github-repoRepo 元数据、stars、语言、主题1
youtube-video视频标题、观看数、频道、描述1
reddit-thread帖子标题、得分、作者、正文1
hacker-news-front-page首页故事标题、points、URL、评论1
stackoverflow-question问题、答案、是否被采纳、投票数1
npm-package包元数据、每周下载量、版本1
producthunt-launch产品名称、标语、upvotes、主题1
tweet推文文本、作者、URL、图片1

附带代码的完整演练:用一个工具 scraping Amazon、LinkedIn 和 GitHub。

list_ollama_models:免费模型发现

它最有用的场景是在运行 extract_with_llm 之前做一次快速检查。它列出你本地 Ollama 实例上的每个模型,包含名称、大小和修改日期。

Bash

费用为零 credits。它不做任何 scraping,也不调用任何 LLM —— 它只是查询 127.0.0.1:11434 上 Ollama 的本地 API 并返回结果。如果你曾好奇自己到底装了哪个模型,这就是答案。

旧工作流 vs v4.2.2 工作流

任务4.2.2 之前v4.2.2
从终端 scrapingcurl + 自定义解析器,或启动一个 Node REPLcrawlforge scrape <url>
用 LLM 提取结构化数据extract_structured(CSS 选择器)或用 Puppeteer + OpenAI 自己实现extract_with_llm(默认 Ollama)
scraping Amazon、LinkedIn、GitHubscrape_structured 配合手工维护的选择器scrape_template(选择器由我们维护)
在 CI/cron 中运行 scraping在请求头里带 API key 的 curlcrawlforge <cmd> 配合环境变量

credits 费用

这三个新工具沿用我们现有的 credits 计费模型。没有意外:

工具Credits原因
list_ollama_models0免费的发现助手
scrape_template1单页面,预构建 schema
extract_with_llm3LLM 推理(与提供商无关)

CLI 本身是免费的。它使用你现有的 API key,并从你的常规 credits 余额中计费。

如何升级

现有用户无需做任何事。新工具已在所有套餐上线 —— Free、Hobby、Professional 和 Business —— 并会自动出现在你的 MCP 客户端中。

如果你想要 CLI:

Bash

如果你想尝试基于 Ollama 的提取:

Bash

接下来是什么

我们正在为 4.3 准备三样东西:

  • 更多模板 —— Etsy、eBay、TikTok、Instagram、Google Maps。在 Discord 上把你的需求发给我们。
  • batch_scrape 的 webhook 投递 —— 当长时间运行的任务完成时,将结果推送到你的 endpoint。
  • CLI watch 模式 —— crawlforge track --watch,对被监控的页面做实时 diff。

准备好试用新工具了吗? 免费开始,赠送 1,000 credits —— 无需信用卡。或者直接进入深入指南:CLI 指南、本地 LLM 提取,以及十个 scrape 模板。

标签

releasev4.2.2CLIOllamaannouncementMCP

关于作者

C

CrawlForge Team

工程团队

我们正在打造功能最全面的 Web 抓取 MCP server。我们开发的工具帮助开发者为 AI 应用提取、分析和转换 Web 数据。

本页内容

Frequently Asked Questions

CrawlForge v4.2.2 有哪些新功能?+

v4.2.2 新增了三个工具(extract_with_llm、list_ollama_models、scrape_template)以及一个独立的 CLI,该 CLI 以 `crawlforge` 命令的形式随 crawlforge-mcp-server 包一起发布。工具数量从 20 增加到 23。CLI 是全新的,无需 MCP 客户端即可运行,因此你可以从任何终端、cron job 或 CI 流水线中使用 CrawlForge。

如果我已经在用 MCP,还需要 CrawlForge CLI 吗?+

不需要。对于 AI agent(Claude、Cursor、Windsurf 等),MCP 仍然是最合适的选择。CLI 面向 scraping 工作的另一半 —— cron job、CI 步骤、从终端发起的一次性抓取 —— 在这些场景下,MCP 握手显得多余,你只想要输出到 stdout、可以管道传给 jq 的 JSON。

extract_with_llm 需要 OpenAI 或 Anthropic 的 API key 吗?+

不需要。它默认使用本地 Ollama,完全在你的机器上运行,无需任何外部 API key。如果你想使用前沿模型,OpenAI 和 Anthropic 也作为可选提供商受支持,但默认路径是完全本地的。

scrape_template 支持哪些站点?+

v4.2.2 支持十个站点:Amazon、LinkedIn、GitHub、YouTube、Reddit、Hacker News、Stack Overflow、npm、Product Hunt 和 Twitter/X。每次 scrape 收取 1 credit,返回站点专属的结构化 JSON,无需 CSS 选择器。

我该如何升级到 v4.2.2?+

现有用户无需做任何事 —— 新工具已在所有套餐上线,并会自动出现在你的 MCP 客户端中。要安装新的 CLI,请运行 "npm install -g crawlforge-mcp-server" 并设置 CRAWLFORGE_API_KEY 环境变量。

相关文章

CrawlForge MCP 现已上线:为 AI agent 提供免费 web scraping
Product Updates

CrawlForge MCP 现已上线:为 AI agent 提供免费 web scraping

CrawlForge MCP 今日上线,提供 20 个 web scraping 工具、面向 Claude 和 Cursor 的 MCP 集成,以及包含 1,000 credits 的免费套餐。更快地构建 agent。

C
CrawlForge Team
|
3月31日
|
6 分钟
一个 MCP server 集成 18 个网页抓取工具:CrawlForge 完整指南
Product Updates

一个 MCP server 集成 18 个网页抓取工具:CrawlForge 完整指南

探索 CrawlForge MCP 中的全部 20 个网页抓取工具 —— 从基础 URL 获取到 AI 驱动的调研。面向 AI 智能体开发者的完整参考。

C
CrawlForge Team
|
1月7日
|
10 分钟
欢迎使用 CrawlForge:面向 AI 的企业级 web scraping
Product Updates

欢迎使用 CrawlForge:面向 AI 的企业级 web scraping

隆重推出 CrawlForge MCP——一套包含 20 个专用 web scraping API 工具的组合,专为现代 AI 应用打造,让网页数据提取变得简单且可扩展。

C
CrawlForge Team
|
12月20日
|
3 分钟

页脚

CrawlForge

面向 AI Agent 的企业级网页抓取。23 个专业 MCP 工具,专为构建智能系统的现代开发者而设计。

产品

  • 功能
  • 价格
  • 应用场景
  • 集成
  • 替代方案
  • 更新日志

资源

  • 快速上手
  • API 参考
  • 模板
  • 指南
  • 博客
  • 术语表
  • 常见问题
  • 网站地图

开发者

  • MCP 协议
  • Claude Desktop
  • Cursor IDE
  • LangChain
  • LlamaIndex

公司

  • 关于我们
  • 联系我们
  • 隐私政策
  • 服务条款

保持更新

获取新工具和新功能的最新动态。

基于 Next.js 和 MCP 协议构建

© 2025-2026 CrawlForge。保留所有权利。