CrawlForge MCP 中的 26 个网页抓取工具是哪些？

CrawlForge 集成了四个基础工具（fetch_url、extract_text、extract_links、extract_metadata，每个 1 credit）、结构化提取器如 scrape_structured 和 extract_content（2 credits）、高级工具如 crawl_deep、batch_scrape、search_web 和 stealth_mode（3-5 credits），以及 AI 驱动的 deep_research 工具（10 credits）—— 全部置于单个 API key 之后。

为什么要用一个 MCP server 而不是多个抓取工具？

传统抓取迫使你组合 HTTP 客户端、浏览器自动化框架、搜索服务、内容提取器和变更监控器。CrawlForge 为你提供一套统一的 API，拥有一致的认证、定价和响应格式，让 Claude 能智能地为每个任务挑选合适的工具。

对于简单的页面获取，CrawlForge 哪个工具最便宜？

用 fetch_url（1 credit）获取原始 HTML，或用 extract_text（1 credit）获取干净可读的文本。对于静态内容、API 端点和 LLM 上下文准备，这是最高效的选择 —— 把更昂贵的工具留给便宜工具无法胜任的场景。

我什么时候该用 deep_research 而不是 search_web？

search_web 返回 Google 风格的结果，而 deep_research（10 credits）会执行带引用跟踪和冲突检测的多来源验证。当你需要从众多来源得出一个综合答案、而不仅仅是一份链接列表时，请使用 deep_research。

全部 26 个工具在免费层级都能用吗？

可以。每个套餐，包括 1,000 credits 的免费层级，都能访问全部 26 个工具。你只需通过 credits 系统按使用量付费，因此可以在免费套餐上试用 stealth_mode、deep_research 和 batch_scrape，找到适合你工作流的工具。

一个 MCP server 集成 18 个网页抓取工具：CrawlForge 完整指南

对 AI 应用而言，网页抓取从未像今天这般关键。无论你是在构建 RAG 系统、训练模型还是创建智能体，都需要可靠地获取网络数据。CrawlForge MCP 在单个软件包中提供 26 个专用工具，专为使用 Claude 及其他 LLM 进行构建的开发者设计。

为什么一个 MCP server 能改变一切

传统抓取方案迫使你拼凑多个工具：

一个用于简单获取的基础 HTTP 客户端
一个面向重度 JavaScript 站点的浏览器自动化框架
一个独立的搜索服务
另一个用于内容提取的工具
再来一个用于监控变更的工具

有了 CrawlForge，你将获得一套统一的 API，拥有一致的认证、定价和响应格式。Claude 可以智能地为每个任务挑选合适的工具。

完整工具参考

基础工具（每个 1 credit）

这些基础工具能高效处理最常见的抓取任务：

fetch_url

最简单的工具 —— 从任意 URL 获取原始 HTML，并自动处理重定向。

Bash

curl -X POST https://crawlforge.dev/api/v1/tools/fetch_url \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{"url": "https://example.com"}'

**最适合：**初始页面加载、API 端点、静态内容

extract_text

剥离 HTML，返回干净、可读的文本内容。

Bash

curl -X POST https://crawlforge.dev/api/v1/tools/extract_text \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{"url": "https://example.com/article"}'

**最适合：**内容分析、LLM 上下文、文本处理

extract_links

解析所有锚点标签，返回结构化的链接数据。

**最适合：**站点映射、爬虫种子、SEO 分析

extract_metadata

提取 SEO 元数据、Open Graph 标签、Twitter cards 和 Schema.org 数据。

**最适合：**内容预览、SEO 审计、社交分享分析

结构化提取工具（每个 2 credits）

当你需要的不只是原始内容时：

scrape_structured

使用 CSS 选择器将特定元素提取为结构化 JSON。

Typescript

{
  "url": "https://store.example.com/products",
  "selectors": {
    "title": "h1.product-title",
    "price": "span.price",
    "rating": "div.rating-stars"
  }
}

**最适合：**电商数据、列表、结构化页面

extract_content

智能主体内容提取 —— 去除导航、广告和样板内容。

**最适合：**文章、博客文章、文档页面

map_site

发现并映射网站结构，找出所有可访问的 URL。

Typescript

{
  "url": "https://docs.example.com",
  "maxDepth": 3,
  "includePatterns": ["/docs/*"]
}

**最适合：**抓取前规划、文档索引、站点地图生成

process_document

通过 URL 从 PDF 及其他文档格式中提取文本。

**最适合：**PDF 抓取、文档处理、学术论文

localization

地理定向抓取，提供 26+ 个国家/地区代理、时区伪装和区域设置请求头。

Typescript

{
  "url": "https://store.example.com",
  "country": "UK",
  "language": "en-GB"
}

**最适合：**价格对比、本地化内容、有地域限制的站点

高级工具（3-5 credits）

面向复杂的抓取场景：

analyze_content（3 credits）

AI 驱动的内容分析，包括情感、语言检测和主题提取。

**最适合：**情感分析、内容分类、语言检测

stealth_mode（5 credits）

反检测浏览，配备指纹随机化和人类行为模拟 —— 与 Playwright 在底层使用的技术相同，并应用了隐身补丁。

**最适合：**带机器人检测的站点、受 Cloudflare 保护的页面

summarize_content（4 credits）

由 AI 生成的摘要，长度和侧重点可配置。

**最适合：**内容摘要、调研综述、快速概览

crawl_deep（4 credits）

多页爬取，支持深度控制、模式匹配和内容提取。无论爬取多少页面，每次调用固定 4 credits。

Typescript

{
  "url": "https://blog.example.com",
  "maxDepth": 2,
  "maxPages": 50,
  "extractContent": true
}

**最适合：**博客归档、文档站点、全站索引

scrape_with_actions（5 credits）

浏览器自动化，具备点击、输入、滚动和截图能力。

Typescript

{
  "url": "https://app.example.com/login",
  "actions": [
    {"type": "type", "selector": "#email", "text": "user@example.com"},
    {"type": "click", "selector": "button[type=submit]"},
    {"type": "wait", "timeout": 3000}
  ]
}

**最适合：**需登录的内容、交互式表单、SPA 导航

batch_scrape（5 credits）

以统一的响应格式并行处理多个 URL。无论 URL 数量多少，每次调用固定 5 credits。

Typescript

{
  "urls": [
    "https://site1.com",
    "https://site2.com",
    "https://site3.com"
  ],
  "maxConcurrency": 10
}

**最适合：**批量数据采集、对比抓取、效率

search_web（5 credits）

集成 Google Custom Search 以发现相关 URL。

**最适合：**调研起点、主题发现、竞争分析

track_changes（3 credits）

以可配置的灵敏度监控网站内容变更。每次调用固定 3 credits。

**最适合：**竞争对手监控、价格跟踪、新闻提醒

AI 调研工具（10 credits）

deep_research

最强大的工具 —— 带来源验证与综合的多阶段调研。

Typescript

{
  "topic": "Next.js 15 performance improvements",
  "depth": "moderate",
  "maxSources": 10
}

综合后的摘要
带置信度评分的关键发现
带相关性排序的已验证来源
来源之间的冲突检测

**最适合：**竞争情报、市场调研、技术调研、事实核查

credits 优化技巧

从便宜的开始：在尝试昂贵工具之前先用 fetch_url（1 credit）
能批处理就批处理：batch_scrape 比单独调用更高效
了解你的 URL：已有 URL 时不要用 search_web（5 credits）
缓存结果：相同 URL = 相同内容，不要不必要地重复抓取
用对工具：extract_content（2 credits）胜过手动解析

定价对比

Plan	Credits/月	价格	每 credit 成本
Free	1,000	$0	-
Hobby	5,000	$19	$0.0038
Professional	50,000	$99	$0.00198
Business	250,000	$399	$0.00160

开始使用

在 crawlforge.dev/signup 免费注册
即刻获得 1,000 credits（无需信用卡）
5 分钟内接入 Claude Desktop（指南）

**准备好开始了吗？**在 crawlforge.dev 创建你的免费账户，今天就解锁全部 26 个工具。

为什么一个 MCP server 能改变一切

传统抓取方案迫使你拼凑多个工具：

一个用于简单获取的基础 HTTP 客户端
一个面向重度 JavaScript 站点的浏览器自动化框架
一个独立的搜索服务
另一个用于内容提取的工具
再来一个用于监控变更的工具

有了 CrawlForge，你将获得一套统一的 API，拥有一致的认证、定价和响应格式。Claude 可以智能地为每个任务挑选合适的工具。

完整工具参考

基础工具（每个 1 credit）

这些基础工具能高效处理最常见的抓取任务：

fetch_url

最简单的工具 —— 从任意 URL 获取原始 HTML，并自动处理重定向。

Bash

curl -X POST https://crawlforge.dev/api/v1/tools/fetch_url \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{"url": "https://example.com"}'

**最适合：**初始页面加载、API 端点、静态内容

extract_text

剥离 HTML，返回干净、可读的文本内容。

Bash

curl -X POST https://crawlforge.dev/api/v1/tools/extract_text \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -d '{"url": "https://example.com/article"}'

**最适合：**内容分析、LLM 上下文、文本处理

extract_links

解析所有锚点标签，返回结构化的链接数据。

**最适合：**站点映射、爬虫种子、SEO 分析

extract_metadata

提取 SEO 元数据、Open Graph 标签、Twitter cards 和 Schema.org 数据。

**最适合：**内容预览、SEO 审计、社交分享分析

结构化提取工具（每个 2 credits）

当你需要的不只是原始内容时：

scrape_structured

使用 CSS 选择器将特定元素提取为结构化 JSON。

Typescript

{
  "url": "https://store.example.com/products",
  "selectors": {
    "title": "h1.product-title",
    "price": "span.price",
    "rating": "div.rating-stars"
  }
}

**最适合：**电商数据、列表、结构化页面

extract_content

智能主体内容提取 —— 去除导航、广告和样板内容。

**最适合：**文章、博客文章、文档页面

map_site

发现并映射网站结构，找出所有可访问的 URL。

Typescript

{
  "url": "https://docs.example.com",
  "maxDepth": 3,
  "includePatterns": ["/docs/*"]
}

**最适合：**抓取前规划、文档索引、站点地图生成

process_document

通过 URL 从 PDF 及其他文档格式中提取文本。

**最适合：**PDF 抓取、文档处理、学术论文

localization

地理定向抓取，提供 26+ 个国家/地区代理、时区伪装和区域设置请求头。

Typescript

{
  "url": "https://store.example.com",
  "country": "UK",
  "language": "en-GB"
}

**最适合：**价格对比、本地化内容、有地域限制的站点

高级工具（3-5 credits）

面向复杂的抓取场景：

analyze_content（3 credits）

AI 驱动的内容分析，包括情感、语言检测和主题提取。

**最适合：**情感分析、内容分类、语言检测

stealth_mode（5 credits）

反检测浏览，配备指纹随机化和人类行为模拟 —— 与 Playwright 在底层使用的技术相同，并应用了隐身补丁。

**最适合：**带机器人检测的站点、受 Cloudflare 保护的页面

summarize_content（4 credits）

由 AI 生成的摘要，长度和侧重点可配置。

**最适合：**内容摘要、调研综述、快速概览

crawl_deep（4 credits）

多页爬取，支持深度控制、模式匹配和内容提取。无论爬取多少页面，每次调用固定 4 credits。

Typescript

{
  "url": "https://blog.example.com",
  "maxDepth": 2,
  "maxPages": 50,
  "extractContent": true
}

**最适合：**博客归档、文档站点、全站索引

scrape_with_actions（5 credits）

浏览器自动化，具备点击、输入、滚动和截图能力。

Typescript

{
  "url": "https://app.example.com/login",
  "actions": [
    {"type": "type", "selector": "#email", "text": "user@example.com"},
    {"type": "click", "selector": "button[type=submit]"},
    {"type": "wait", "timeout": 3000}
  ]
}

**最适合：**需登录的内容、交互式表单、SPA 导航

batch_scrape（5 credits）

以统一的响应格式并行处理多个 URL。无论 URL 数量多少，每次调用固定 5 credits。

Typescript

{
  "urls": [
    "https://site1.com",
    "https://site2.com",
    "https://site3.com"
  ],
  "maxConcurrency": 10
}

**最适合：**批量数据采集、对比抓取、效率

search_web（5 credits）

集成 Google Custom Search 以发现相关 URL。

**最适合：**调研起点、主题发现、竞争分析

track_changes（3 credits）

以可配置的灵敏度监控网站内容变更。每次调用固定 3 credits。

**最适合：**竞争对手监控、价格跟踪、新闻提醒

AI 调研工具（10 credits）

deep_research

最强大的工具 —— 带来源验证与综合的多阶段调研。

Typescript

{
  "topic": "Next.js 15 performance improvements",
  "depth": "moderate",
  "maxSources": 10
}

综合后的摘要
带置信度评分的关键发现
带相关性排序的已验证来源
来源之间的冲突检测

**最适合：**竞争情报、市场调研、技术调研、事实核查

credits 优化技巧

从便宜的开始：在尝试昂贵工具之前先用 fetch_url（1 credit）
能批处理就批处理：batch_scrape 比单独调用更高效
了解你的 URL：已有 URL 时不要用 search_web（5 credits）
缓存结果：相同 URL = 相同内容，不要不必要地重复抓取
用对工具：extract_content（2 credits）胜过手动解析

定价对比

Plan	Credits/月	价格	每 credit 成本
Free	1,000	$0	-
Hobby	5,000	$19	$0.0038
Professional	50,000	$99	$0.00198
Business	250,000	$399	$0.00160

开始使用

在 crawlforge.dev/signup 免费注册
即刻获得 1,000 credits（无需信用卡）
5 分钟内接入 Claude Desktop（指南）

本页内容

为什么一个 MCP server 能改变一切

完整工具参考

基础工具（每个 1 credit）

fetch_url

extract_text

extract_links

extract_metadata

结构化提取工具（每个 2 credits）

scrape_structured

extract_content

map_site

process_document

localization

高级工具（3-5 credits）

analyze_content（3 credits）

stealth_mode（5 credits）

summarize_content（4 credits）

crawl_deep（4 credits）

scrape_with_actions（5 credits）

batch_scrape（5 credits）

search_web（5 credits）

track_changes（3 credits）

AI 调研工具（10 credits）

deep_research

credits 优化技巧

定价对比

开始使用

亲自试一试——无需注册

标签

关于作者

CrawlForge Team

及时获取最新洞察

Frequently Asked Questions

相关文章

CrawlForge v4.8.0：可自动激活的 Claude Skills

CrawlForge v4.2.2：全新 CLI + 3 个本地 AI scraping 工具

CrawlForge MCP 现已上线：为 AI agent 提供免费 web scraping

本页内容

为什么一个 MCP server 能改变一切

完整工具参考

基础工具（每个 1 credit）

fetch_url

extract_text

extract_links

extract_metadata

结构化提取工具（每个 2 credits）

scrape_structured

extract_content

map_site

process_document

localization

高级工具（3-5 credits）

analyze_content（3 credits）

stealth_mode（5 credits）

summarize_content（4 credits）

crawl_deep（4 credits）

scrape_with_actions（5 credits）

batch_scrape（5 credits）

search_web（5 credits）

track_changes（3 credits）

AI 调研工具（10 credits）

deep_research

credits 优化技巧

定价对比

开始使用

亲自试一试——无需注册

标签

关于作者

CrawlForge Team

及时获取最新洞察

Frequently Asked Questions

相关文章

CrawlForge v4.8.0：可自动激活的 Claude Skills

CrawlForge v4.2.2：全新 CLI + 3 个本地 AI scraping 工具

CrawlForge MCP 现已上线：为 AI agent 提供免费 web scraping