本页内容
如果你曾经写过一个 Claude Code skill,却眼睁睁看着 Claude 直接无视它,那么 v4.8.0 正是为你准备的。CrawlForge MCP Server v4.8.0 带来了七个真正可自动激活的 面向 web scraping 的 Claude Agent Skills,它们将普通的自然语言 prompt 映射到服务器的 26 个工具 —— 让 Claude 无需你指明该调用哪一个,就能加载正确的 scraping、crawling 或 research 工具。
这是一次完全增量的小版本更新(于 2026 年 6 月 28 日发布)。工具数量保持为 26 个,对现有调用方而言没有任何工具 schema、输出结构或 credit 费用发生变化。除了这些 skills,我们还接入了真正强制执行的 SSRF(服务器端请求伪造)防护,修复了此前会静默故障开放(fail open)的 MCP 确认提示,让 screenshot 这个 scrape 格式真正可用,新增了基于设计令牌(design tokens)的 branding 格式,并发布了真正内置的定时变更监控。
目录
- v4.8.0 发布内容
- 七个可自动激活的面向 web scraping 的 Claude Agent Skills
- 两种新的 scrape 格式:branding 和 screenshot
- 内置的定时变更监控
- 安全加固:宣传过却被静默破坏的防护
- 定价:26 个计费工具,没有新工具,没有免费午餐
- 如何升级
- 接下来是什么
v4.8.0 发布内容
一句话总结:真正可自动激活的 Claude Agent Skills、两种新的 scrape 格式、真正强制执行的安全防护,以及可用的定时变更监控。
这里有必要按 Stripe changelog 的风格在开头明确指出唯一一处行为变更:支持 MCP elicitation(引出)的客户端现在将真正看到此前无法出现的费用与安全确认(例如对 50 个 URL 的 deep research、batch scrape 和 deep crawl)。其余一切都是纯增量的。
一行命令即可安装或升级:
npm install -g crawlforge-mcp-server@latest
npx crawlforge init以下是便于快速浏览的 changelog:
| 类型 | 变更 |
|---|---|
| 新增 | 7 个覆盖全部 26 个工具的可自动激活 Claude Agent Skills |
| 新增 | scrape 新增 branding 格式(设计令牌,无需浏览器) |
| 新增 | scrape 的 screenshot 格式现已可渲染(此前是空操作) |
| 新增 | 定时变更监控:create/list/stop + CLI cron |
| 修复 | SSRF 防护已接入实际的 scraping 路径 |
| 修复 | MCP elicitation 确认现已触发(此前是静默的空操作) |
| 安全 | 按 host 的出站限流 + executeJavaScript 加固 |
七个可自动激活的面向 web scraping 的 Claude Agent Skills
旧做法发布的只是一堆裸的参考 markdown 文件,而 Claude Code 从来不会真正加载它们。如果你曾经把一个 skill 文件丢到磁盘上,却看着 Claude 无视它,你就明白这种失败模式:文件就在那里,但没有任何东西告诉模型它什么时候相关,于是你最终只能明确写出 "use the stealth_mode tool to scrape this" —— 这就失去了意义。
于是我们重新做了一套。现在一个 skill 是一个目录,其中包含一个带 YAML frontmatter 的 SKILL.md 文件。启动时 Claude 只预加载每个已安装 skill 的 name 和 description,然后仅在它判断该 skill 与你的 prompt 相关时才读取完整正文。Anthropic 把这称为渐进式披露(progressive disclosure)—— skills 不是始终加载的上下文,而是按需加载。
---
name: crawlforge-web-scraping
description: >-
Scrape, crawl, and extract content from websites and return clean
Markdown or structured JSON. Use when the user wants to scrape a page,
crawl a site, extract links or metadata, map a site, or convert a URL
to Markdown for an LLM.
---
# CrawlForge Web Scraping
...老实说:自动激活是由模型判断的,并不保证一定发生。一个良好、触发词丰富的 description 会大幅提高正确 skill 被触发的概率,但这是一种启发式,而非契约 —— 而且你随时可以在 prompt 中明确指明 skill 或工具名称来强制触发。
这七个 skills 覆盖全部 26 个工具:
| Skill | 覆盖范围 |
|---|---|
crawlforge-getting-started | 上手引导、key 配置、工具选择 |
crawlforge-web-scraping | scrape、crawl、map,提取 links/metadata/text |
crawlforge-deep-research | deep research、search、summarize、analyze |
crawlforge-stealth-browsing | 隐身模式、反机器人、浏览器操作 |
crawlforge-structured-extraction | LLM 提取、模板、结构化 scrape |
crawlforge-change-tracking | 变更追踪、定时监控 |
crawlforge-batch-automation | 批量 scrape、文档处理、llms.txt |
Skills 会安装到个人作用域下的 ~/.claude/skills/<name>/SKILL.md。它们是对 MCP 的补充,而非替代:MCP 暴露这 26 个工具,而 skills 教会 Claude 在何时、以何种方式去使用它们 —— 可以把它想象成给一位桌上已经摆好工具的新员工准备的上手指南。
升级是自愈的。安装程序会移除旧版的裸文件(不影响无关的 skills),npm run skills:gen 会重新生成根 SKILL.md。此外还有一个可选启用的强制评估 hook —— 一个幂等的 UserPromptSubmit 提醒,用于提高自动激活率 —— 它位于 install-skills 和 init 的 --with-hook 之后(以及 uninstall-skills 的 --remove-hook)。该 hook 默认关闭。
npx crawlforge init 会完成整个流程:配置你的 API key、安装 skills,并将 MCP server 注册到你的 AI 客户端中。
两种新的 scrape 格式:branding 和 screenshot
scrape 工具新增了两种输出格式。两者的费用均不变,为 2 credits。
新的 branding 格式从 HTML 和 CSS 中做静态的设计令牌提取,无需浏览器。它返回配色方案、字体与排版、logo 和 favicon,以及 border-radius、阴影和间距令牌。它受 SSRF 防护,且对外链 CSS 的抓取在数量和大小上都有上限。
{
"tool": "scrape",
"arguments": {
"url": "https://stripe.com",
"formats": ["branding"]
}
}screenshot 格式现在真正可用了 —— 此前它只是一个空操作。它通过共享的浏览器池惰性渲染,并返回 crawlforge://screenshot/{id} MCP 资源。浏览器仅在请求截图时才启动;如果渲染失败,它会降级为一条警告,从而让 scrape 的其余部分仍然成功(保留部分成功)。
{
"tool": "scrape",
"arguments": {
"url": "https://example.com",
"formats": ["markdown", "screenshot"]
}
}内置的定时变更监控
track_changes 新增了真正的定时操作:create_scheduled_monitor、stop_scheduled_monitor,以及一个新的 list_scheduled_monitors。这些此前都是一调用就抛错的死代码。它们现在由一个真正持久化的调度器(MonitorScheduler.js + MonitorStore.js)支撑,并且基线会在重启时从快照中重新恢复。
你可以附加一个可选的自然语言 goal。它由 LLM 判断(Ollama 优先),并在没有可用 LLM 时优雅降级为阈值显著性判断 —— 这样一个文档页面或 API changelog 就能返回真正的显著性结论,而不只是一份 diff。
{
"tool": "track_changes",
"arguments": {
"operation": "create_scheduled_monitor",
"url": "https://docs.example.com/changelog",
"interval": "1h",
"goal": "Tell me only when a breaking API change is announced"
}
}现在说实话的部分:stdio MCP server 不是一个长期运行的守护进程,因此可靠的定时触发要借助 CLI 加系统 cron。monitor:run-due 是一个一次性命令,它会检查每一个到期的监控并保证触发:
# Create and inspect monitors
crawlforge monitor:create --url https://docs.example.com/changelog --interval 1h
crawlforge monitor:list
# Drive due checks from system cron (every 15 minutes)
*/15 * * * * crawlforge monitor:run-duetrack_changes 每次调用花费 3 credits。
安全加固:宣传过却被静默破坏的防护
MCP server 已经成为公认的攻击面,而一个代表你抓取任意 URL 的 scraping 服务器正是教科书式的 SSRF 目标 —— 把它指向云元数据端点(169.254.169.254),一次没有防护的 fetch 就会乐呵呵地把响应交回来。我们审计了自身的安全状况,发现有两项我们对外宣传过、但实际上并未强制执行的防护。两者都已修复。
SSRF 现已在实际路径上强制执行
ssrfProtection.js 一直存在,但从未接入到工具中 —— 每次 scrape 都使用原始的 fetch(),没有任何 IP 或 host 校验。新的 ssrfGuard.js 注入了一个 undici dispatcher,它在连接时的查找会校验每一个连接(初始请求以及每一次重定向跳转),并固定到已校验的 IP,从而关闭 DNS 重绑定的 TOCTOU 窗口。
默认的 Stage 1 会拦截回环地址、链路本地以及云元数据(169.254.169.254),还有 0.0.0.0。它现在已贯穿大约 14 个模块:基础 fetch 路径、batch scrape、map site、crawl、extract、文档处理、research、llms.txt、robots/sitemap,以及变更追踪的差异比对器。
# Default: Stage 1 is on. Tighten or override as needed.
SSRF_STRICT=true # adds full RFC1918 / ULA private-range enforcement
ALLOWED_DOMAINS=internal.acme.dev # trusted-host bypass for known internal targets
SSRF_PROTECTION_ENABLED=false # kill switchMCP elicitation 现已真正触发
旧的 ElicitationHelper 调用了 server.elicit() —— 一个并不存在的方法 —— 而且从不检查客户端能力,因此每一次费用与安全确认都静默地故障开放(fail open)。现已修复为调用 elicitInput、基于客户端的 elicitation 能力做门控,并解析 action 字段(accept / decline / cancel)。对于不支持 elicitation 的客户端它仍会故障开放,但支持 elicitation 的客户端现在将看到这些提示。
纵深防御
基础 fetch 路径和 batch scrape 新增了按 host 的出站限流(hostRateLimiter.js):默认每个 host 每秒 10 个请求,由 RATE_LIMIT_PER_DOMAIN 控制。没有全局上限,因此覆盖多个 host 的大范围 crawl 不受影响。这是纵深防御,本身并不是一道 SSRF 边界。
最后,executeJavaScript(仍默认关闭)新增了最大脚本长度(JS_MAX_SCRIPT_LENGTH)、明确的执行超时(JS_EXECUTION_TIMEOUT_MS),以及一份结构化的 stderr 审计日志,记录每个脚本的 SHA-256、长度和 URL。
定价:26 个计费工具,没有新工具,没有免费午餐
v4.8.0 中没有新工具 —— 新的格式和操作都是加到现有工具上的,所以数量保持为 26 个。全部 26 个工具都计费并需要 API key,每次调用的费用从 1 到 10 credits 不等。请注意 list_ollama_models 现在为 1 credit —— 它不再免费,且没有任何工具是按次免费的。
| 套餐 | 价格 | Credits |
|---|---|---|
| Free | 一次性(无需信用卡) | 1,000 试用 credits(不重置) |
| Hobby | $19/mo | 5,000 |
| Professional | $99/mo | 50,000 |
| Business | $399/mo | 250,000 |
每个套餐都包含全部工具。LLM 提取默认使用本地 Ollama,因此除非你主动选用,否则无需 OpenAI 或 Anthropic 的 key。
如何升级
新用户:
npm install -g crawlforge-mcp-server
npx crawlforge init现有用户:运行 npm install -g crawlforge-mcp-server@latest,或者直接触发一次 /mcp 重连。重新运行 init(或 install-skills)即可获取这 7 个 skills 并自愈任何旧版的裸文件。v4.8.0 是增量更新,因此不会破坏任何东西。
这延续了 4.7.x 的正确性节奏:4.7.2 对全部 26 个工具做了一次完整的实时审计,修复了 scrape_with_actions、extract_structured 和 resources/read;4.7.1 修复了 deep_research 的 credibilityThreshold 以及一个 generate_llms_txt 的 "undefined" bug;4.7.0 迁移到了完全计费的模型。如果你是新来的,v4.2.2 发布文章介绍了如今驱动 monitor:run-due 的 CLI。
接下来是什么
还是老样子:在全部 26 个工具上持续稳定地推进可信度与正确性的加固。如果你发现某项防护的行为与文档所声称的不一致,那正是我们最想听到的 bug —— 去试用它、去把它弄坏,然后告诉我们哪里不工作。
准备好试用了吗?免费开始,赠送 1,000 credits —— 然后运行 npx crawlforge init 来安装这 7 个 skills 并注册 MCP server。查看完整文档、track_changes 参考文档,或我们整理的2026 年最佳 web scraping MCP server 盘点。
亲自试一试——无需注册
在 Playground 中运行 CrawlForge 的 27 个抓取与提取工具中的任意一个,然后免费开始,获取 1,000 credits。
1,000 免费 credits • 每月补充 • 无需信用卡
标签
及时获取最新洞察
将教程、产品更新与 Web 抓取技巧直接发送到你的收件箱。
拒绝垃圾邮件,随时可取消订阅。