CrawlForge
首页Playground应用场景集成价格文档博客
CrawlForge v4.8.0:可自动激活的 Claude Skills
Product Updates
返回博客
产品更新

CrawlForge v4.8.0:可自动激活的 Claude Skills

C
CrawlForge Team
工程团队
2026年6月28日
阅读时长 8 分钟

本页内容

快速解答

CrawlForge MCP Server v4.8.0(于 2026 年 6 月 28 日发布)新增了七个真正可自动激活的 Claude Agent Skills,将自然语言 prompt 映射到其 26 个 web scraping、crawling 和 deep research 工具,让 Claude 无需被告知就能加载正确的工具。本次发布还接入了真正强制执行的 SSRF 防护,修复了此前会静默失败的 MCP elicitation 确认,并新增了内置的定时变更监控以及两种新的 scrape 格式(基于设计令牌的 "branding" 提取和可用的 screenshot 截图)。这是一次完全增量的小版本更新:对现有调用方而言,没有任何工具 schema、输出结构或 credit 费用发生变化。

如果你曾经写过一个 Claude Code skill,却眼睁睁看着 Claude 直接无视它,那么 v4.8.0 正是为你准备的。CrawlForge MCP Server v4.8.0 带来了七个真正可自动激活的 面向 web scraping 的 Claude Agent Skills,它们将普通的自然语言 prompt 映射到服务器的 26 个工具 —— 让 Claude 无需你指明该调用哪一个,就能加载正确的 scraping、crawling 或 research 工具。

这是一次完全增量的小版本更新(于 2026 年 6 月 28 日发布)。工具数量保持为 26 个,对现有调用方而言没有任何工具 schema、输出结构或 credit 费用发生变化。除了这些 skills,我们还接入了真正强制执行的 SSRF(服务器端请求伪造)防护,修复了此前会静默故障开放(fail open)的 MCP 确认提示,让 screenshot 这个 scrape 格式真正可用,新增了基于设计令牌(design tokens)的 branding 格式,并发布了真正内置的定时变更监控。

目录

  • v4.8.0 发布内容
  • 七个可自动激活的面向 web scraping 的 Claude Agent Skills
  • 两种新的 scrape 格式:branding 和 screenshot
  • 内置的定时变更监控
  • 安全加固:宣传过却被静默破坏的防护
  • 定价:26 个计费工具,没有新工具,没有免费午餐
  • 如何升级
  • 接下来是什么

v4.8.0 发布内容

一句话总结:真正可自动激活的 Claude Agent Skills、两种新的 scrape 格式、真正强制执行的安全防护,以及可用的定时变更监控。

这里有必要按 Stripe changelog 的风格在开头明确指出唯一一处行为变更:支持 MCP elicitation(引出)的客户端现在将真正看到此前无法出现的费用与安全确认(例如对 50 个 URL 的 deep research、batch scrape 和 deep crawl)。其余一切都是纯增量的。

一行命令即可安装或升级:

Bash
npm install -g crawlforge-mcp-server@latest
npx crawlforge init

以下是便于快速浏览的 changelog:

类型变更
新增7 个覆盖全部 26 个工具的可自动激活 Claude Agent Skills
新增scrape 新增 branding 格式(设计令牌,无需浏览器)
新增scrape 的 screenshot 格式现已可渲染(此前是空操作)
新增定时变更监控:create/list/stop + CLI cron
修复SSRF 防护已接入实际的 scraping 路径
修复MCP elicitation 确认现已触发(此前是静默的空操作)
安全按 host 的出站限流 + executeJavaScript 加固

七个可自动激活的面向 web scraping 的 Claude Agent Skills

旧做法发布的只是一堆裸的参考 markdown 文件,而 Claude Code 从来不会真正加载它们。如果你曾经把一个 skill 文件丢到磁盘上,却看着 Claude 无视它,你就明白这种失败模式:文件就在那里,但没有任何东西告诉模型它什么时候相关,于是你最终只能明确写出 "use the stealth_mode tool to scrape this" —— 这就失去了意义。

于是我们重新做了一套。现在一个 skill 是一个目录,其中包含一个带 YAML frontmatter 的 SKILL.md 文件。启动时 Claude 只预加载每个已安装 skill 的 name 和 description,然后仅在它判断该 skill 与你的 prompt 相关时才读取完整正文。Anthropic 把这称为渐进式披露(progressive disclosure)—— skills 不是始终加载的上下文,而是按需加载。

Yaml
---
name: crawlforge-web-scraping
description: >-
  Scrape, crawl, and extract content from websites and return clean
  Markdown or structured JSON. Use when the user wants to scrape a page,
  crawl a site, extract links or metadata, map a site, or convert a URL
  to Markdown for an LLM.
---

# CrawlForge Web Scraping
...

老实说:自动激活是由模型判断的,并不保证一定发生。一个良好、触发词丰富的 description 会大幅提高正确 skill 被触发的概率,但这是一种启发式,而非契约 —— 而且你随时可以在 prompt 中明确指明 skill 或工具名称来强制触发。

这七个 skills 覆盖全部 26 个工具:

Skill覆盖范围
crawlforge-getting-started上手引导、key 配置、工具选择
crawlforge-web-scrapingscrape、crawl、map,提取 links/metadata/text
crawlforge-deep-researchdeep research、search、summarize、analyze
crawlforge-stealth-browsing隐身模式、反机器人、浏览器操作
crawlforge-structured-extractionLLM 提取、模板、结构化 scrape
crawlforge-change-tracking变更追踪、定时监控
crawlforge-batch-automation批量 scrape、文档处理、llms.txt

Skills 会安装到个人作用域下的 ~/.claude/skills/<name>/SKILL.md。它们是对 MCP 的补充,而非替代:MCP 暴露这 26 个工具,而 skills 教会 Claude 在何时、以何种方式去使用它们 —— 可以把它想象成给一位桌上已经摆好工具的新员工准备的上手指南。

升级是自愈的。安装程序会移除旧版的裸文件(不影响无关的 skills),npm run skills:gen 会重新生成根 SKILL.md。此外还有一个可选启用的强制评估 hook —— 一个幂等的 UserPromptSubmit 提醒,用于提高自动激活率 —— 它位于 install-skills 和 init 的 --with-hook 之后(以及 uninstall-skills 的 --remove-hook)。该 hook 默认关闭。

npx crawlforge init 会完成整个流程:配置你的 API key、安装 skills,并将 MCP server 注册到你的 AI 客户端中。

两种新的 scrape 格式:branding 和 screenshot

scrape 工具新增了两种输出格式。两者的费用均不变,为 2 credits。

新的 branding 格式从 HTML 和 CSS 中做静态的设计令牌提取,无需浏览器。它返回配色方案、字体与排版、logo 和 favicon,以及 border-radius、阴影和间距令牌。它受 SSRF 防护,且对外链 CSS 的抓取在数量和大小上都有上限。

Json
{
  "tool": "scrape",
  "arguments": {
    "url": "https://stripe.com",
    "formats": ["branding"]
  }
}

screenshot 格式现在真正可用了 —— 此前它只是一个空操作。它通过共享的浏览器池惰性渲染,并返回 crawlforge://screenshot/{id} MCP 资源。浏览器仅在请求截图时才启动;如果渲染失败,它会降级为一条警告,从而让 scrape 的其余部分仍然成功(保留部分成功)。

Json
{
  "tool": "scrape",
  "arguments": {
    "url": "https://example.com",
    "formats": ["markdown", "screenshot"]
  }
}

内置的定时变更监控

track_changes 新增了真正的定时操作:create_scheduled_monitor、stop_scheduled_monitor,以及一个新的 list_scheduled_monitors。这些此前都是一调用就抛错的死代码。它们现在由一个真正持久化的调度器(MonitorScheduler.js + MonitorStore.js)支撑,并且基线会在重启时从快照中重新恢复。

你可以附加一个可选的自然语言 goal。它由 LLM 判断(Ollama 优先),并在没有可用 LLM 时优雅降级为阈值显著性判断 —— 这样一个文档页面或 API changelog 就能返回真正的显著性结论,而不只是一份 diff。

Json
{
  "tool": "track_changes",
  "arguments": {
    "operation": "create_scheduled_monitor",
    "url": "https://docs.example.com/changelog",
    "interval": "1h",
    "goal": "Tell me only when a breaking API change is announced"
  }
}

现在说实话的部分:stdio MCP server 不是一个长期运行的守护进程,因此可靠的定时触发要借助 CLI 加系统 cron。monitor:run-due 是一个一次性命令,它会检查每一个到期的监控并保证触发:

Bash
# Create and inspect monitors
crawlforge monitor:create --url https://docs.example.com/changelog --interval 1h
crawlforge monitor:list

# Drive due checks from system cron (every 15 minutes)
*/15 * * * * crawlforge monitor:run-due

track_changes 每次调用花费 3 credits。

安全加固:宣传过却被静默破坏的防护

MCP server 已经成为公认的攻击面,而一个代表你抓取任意 URL 的 scraping 服务器正是教科书式的 SSRF 目标 —— 把它指向云元数据端点(169.254.169.254),一次没有防护的 fetch 就会乐呵呵地把响应交回来。我们审计了自身的安全状况,发现有两项我们对外宣传过、但实际上并未强制执行的防护。两者都已修复。

SSRF 现已在实际路径上强制执行

ssrfProtection.js 一直存在,但从未接入到工具中 —— 每次 scrape 都使用原始的 fetch(),没有任何 IP 或 host 校验。新的 ssrfGuard.js 注入了一个 undici dispatcher,它在连接时的查找会校验每一个连接(初始请求以及每一次重定向跳转),并固定到已校验的 IP,从而关闭 DNS 重绑定的 TOCTOU 窗口。

默认的 Stage 1 会拦截回环地址、链路本地以及云元数据(169.254.169.254),还有 0.0.0.0。它现在已贯穿大约 14 个模块:基础 fetch 路径、batch scrape、map site、crawl、extract、文档处理、research、llms.txt、robots/sitemap,以及变更追踪的差异比对器。

Bash
# Default: Stage 1 is on. Tighten or override as needed.
SSRF_STRICT=true                  # adds full RFC1918 / ULA private-range enforcement
ALLOWED_DOMAINS=internal.acme.dev # trusted-host bypass for known internal targets
SSRF_PROTECTION_ENABLED=false     # kill switch

MCP elicitation 现已真正触发

旧的 ElicitationHelper 调用了 server.elicit() —— 一个并不存在的方法 —— 而且从不检查客户端能力,因此每一次费用与安全确认都静默地故障开放(fail open)。现已修复为调用 elicitInput、基于客户端的 elicitation 能力做门控,并解析 action 字段(accept / decline / cancel)。对于不支持 elicitation 的客户端它仍会故障开放,但支持 elicitation 的客户端现在将看到这些提示。

纵深防御

基础 fetch 路径和 batch scrape 新增了按 host 的出站限流(hostRateLimiter.js):默认每个 host 每秒 10 个请求,由 RATE_LIMIT_PER_DOMAIN 控制。没有全局上限,因此覆盖多个 host 的大范围 crawl 不受影响。这是纵深防御,本身并不是一道 SSRF 边界。

最后,executeJavaScript(仍默认关闭)新增了最大脚本长度(JS_MAX_SCRIPT_LENGTH)、明确的执行超时(JS_EXECUTION_TIMEOUT_MS),以及一份结构化的 stderr 审计日志,记录每个脚本的 SHA-256、长度和 URL。

定价:26 个计费工具,没有新工具,没有免费午餐

v4.8.0 中没有新工具 —— 新的格式和操作都是加到现有工具上的,所以数量保持为 26 个。全部 26 个工具都计费并需要 API key,每次调用的费用从 1 到 10 credits 不等。请注意 list_ollama_models 现在为 1 credit —— 它不再免费,且没有任何工具是按次免费的。

套餐价格Credits
Free一次性(无需信用卡)1,000 试用 credits(不重置)
Hobby$19/mo5,000
Professional$99/mo50,000
Business$399/mo250,000

每个套餐都包含全部工具。LLM 提取默认使用本地 Ollama,因此除非你主动选用,否则无需 OpenAI 或 Anthropic 的 key。

如何升级

新用户:

Bash
npm install -g crawlforge-mcp-server
npx crawlforge init

现有用户:运行 npm install -g crawlforge-mcp-server@latest,或者直接触发一次 /mcp 重连。重新运行 init(或 install-skills)即可获取这 7 个 skills 并自愈任何旧版的裸文件。v4.8.0 是增量更新,因此不会破坏任何东西。

这延续了 4.7.x 的正确性节奏:4.7.2 对全部 26 个工具做了一次完整的实时审计,修复了 scrape_with_actions、extract_structured 和 resources/read;4.7.1 修复了 deep_research 的 credibilityThreshold 以及一个 generate_llms_txt 的 "undefined" bug;4.7.0 迁移到了完全计费的模型。如果你是新来的,v4.2.2 发布文章介绍了如今驱动 monitor:run-due 的 CLI。

接下来是什么

还是老样子:在全部 26 个工具上持续稳定地推进可信度与正确性的加固。如果你发现某项防护的行为与文档所声称的不一致,那正是我们最想听到的 bug —— 去试用它、去把它弄坏,然后告诉我们哪里不工作。


准备好试用了吗?免费开始,赠送 1,000 credits —— 然后运行 npx crawlforge init 来安装这 7 个 skills 并注册 MCP server。查看完整文档、track_changes 参考文档,或我们整理的2026 年最佳 web scraping MCP server 盘点。

亲自试一试——无需注册

在 Playground 中运行 CrawlForge 的 27 个抓取与提取工具中的任意一个,然后免费开始,获取 1,000 credits。

1,000 免费 credits • 每月补充 • 无需信用卡

标签

releasev4.8.0agent-skillssecurityMCPannouncement

关于作者

C

CrawlForge Team

工程团队

我们正在打造功能最全面的 Web 抓取 MCP server。我们开发的工具帮助开发者为 AI 应用提取、分析和转换 Web 数据。

及时获取最新洞察

将教程、产品更新与 Web 抓取技巧直接发送到你的收件箱。

拒绝垃圾邮件,随时可取消订阅。

付诸实践

在任意 URL 上测试 CrawlForge 的工具——免费,无需注册。

本页内容

Frequently Asked Questions

什么是 Claude Agent Skills,它们如何自动激活?+

一个 skill 就是一个目录,里面包含一个带 YAML frontmatter 的 SKILL.md 文件(一个 name 和一段触发词丰富的 description)。启动时 Claude 只预加载每个已安装 skill 的 name 和 description,然后仅在它判断该 skill 与你的 prompt 相关时才读取完整的 SKILL.md 正文 —— 这种模式被 Anthropic 称为渐进式披露(progressive disclosure)。CrawlForge v4.8.0 带来了 7 个这样的 skills,覆盖全部 26 个工具,因此 Claude 无需你指明该调用哪一个,就能加载正确的 scraping、research 或变更追踪工具。激活由模型判断,因此好的 description 会大幅提高正确 skill 被触发的概率,而不是保证一定触发。

升级到 v4.8.0 会破坏我现有的工具调用吗?+

不会。v4.8.0 是一次完全增量的小版本更新。对现有调用方而言,没有任何工具 schema、输出结构或 credit 费用发生变化,工具数量保持为 26 个 —— 新能力都是加到现有工具上的。唯一需要了解的行为变更是:支持 MCP elicitation 的客户端现在将看到此前无法出现的费用与安全确认(例如对 50 个 URL 的 deep research、batch scrape 和 deep crawl)。

CrawlForge 的 SSRF 防护默认开启吗?我该如何让它更严格?+

是的。v4.8.0 通过一个新的 ssrfGuard.js 将 SSRF 强制执行接入实际的 scraping 路径,它会校验每一个连接 —— 初始请求以及每一次重定向跳转 —— 并固定到已校验的 IP,从而关闭 DNS 重绑定的 TOCTOU 窗口。默认的 Stage 1 会拦截回环地址、链路本地/云元数据(169.254.169.254)以及 0.0.0.0。设置 SSRF_STRICT=true 可加上完整的 RFC1918/ULA 私有地址段强制执行,用 ALLOWED_DOMAINS 把可信 host 加入白名单,或设置 SSRF_PROTECTION_ENABLED=false 作为紧急关闭开关(kill switch)。

如何在一个并非始终运行的 MCP server 上运行定时变更监控?+

stdio MCP server 不是一个长期运行的守护进程,因此 CrawlForge 采用了一种诚实的触发模型:你通过 track_changes(create_scheduled_monitor、list_scheduled_monitors、stop_scheduled_monitor)创建由持久化调度器支撑的监控,然后用系统 cron 驱动的 CLI 命令 monitor:run-due 来可靠地触发到期检查。监控还支持一个可选的自然语言 goal,它由 LLM 判断(Ollama 优先),并在没有可用 LLM 时优雅降级为阈值显著性判断。track_changes 每次花费 3 credits。

我需要 API key 吗?有没有什么是免费的?+

全部 26 个工具都计费并需要 API key;每次调用的 credit 费用从 1 到 10 不等,而且从 v4.8.0 起,连 list_ollama_models 也要花费 1 credit,因此没有任何工具是按次免费的。新账户会获得 1,000 个一次性试用 credits,无需信用卡(这些 credits 不会按月重置)。付费套餐为:Hobby 每月 $19,含 5,000 credits;Professional 每月 $99,含 50,000;Business 每月 $399,含 250,000 —— 而且每个套餐都包含全部工具。LLM 提取默认使用本地 Ollama,因此除非你主动选用,否则无需 OpenAI 或 Anthropic 的 key。

相关文章

CrawlForge v4.2.2:全新 CLI + 3 个本地 AI scraping 工具
Product Updates

CrawlForge v4.2.2:全新 CLI + 3 个本地 AI scraping 工具

v4.2.2 带来了独立的 CLI、基于 Ollama 的本地 LLM 提取,以及面向 10 个热门站点的一行式 scraper。以下是本次变更内容。

C
CrawlForge Team
|
5月18日
|
6 分钟
CrawlForge MCP 现已上线:为 AI agent 提供免费 web scraping
Product Updates

CrawlForge MCP 现已上线:为 AI agent 提供免费 web scraping

CrawlForge MCP 今日上线,提供 20 个 web scraping 工具、面向 Claude 和 Cursor 的 MCP 集成,以及包含 1,000 credits 的免费套餐。更快地构建 agent。

C
CrawlForge Team
|
3月31日
|
6 分钟
一个 MCP server 集成 18 个网页抓取工具:CrawlForge 完整指南
Product Updates

一个 MCP server 集成 18 个网页抓取工具:CrawlForge 完整指南

探索 CrawlForge MCP 中的全部 26 个网页抓取工具 —— 从基础 URL 获取到 AI 驱动的调研。面向 AI 智能体开发者的完整参考。

C
CrawlForge Team
|
1月7日
|
10 分钟

页脚

CrawlForge

面向 AI Agent 的企业级网页抓取。27 个专业 MCP 工具,专为构建智能系统的现代开发者而设计。

产品

  • 功能
  • Playground
  • 价格
  • 应用场景
  • 集成
  • 替代方案
  • 更新日志

资源

  • 快速上手
  • API 参考
  • 模板
  • 指南
  • 博客
  • 术语表
  • 常见问题
  • 网站地图

开发者

  • MCP 协议
  • Claude Desktop
  • Cursor IDE
  • LangChain
  • LlamaIndex

公司

  • 关于我们
  • 联系我们
  • 隐私政策
  • 服务条款
  • 可接受使用政策
  • Cookie

保持更新

获取新工具和新功能的最新动态。

基于 Next.js 和 MCP 协议构建

© 2025-2026 CrawlForge。保留所有权利。