本页内容
如果你曾经希望 Claude 能够从网络获取实时数据、搜索信息或从网站提取内容,那你来对地方了。借助 Model Context Protocol (MCP),你只需几分钟就能为 Claude Desktop 赋予原生的 web scraping 能力。
为什么 Claude 需要网络访问能力
Claude 在分析、写作和推理方面非常强大,但它的训练数据有一个知识截止日期。在没有网络访问能力的情况下,Claude 无法:
- 研究时事或价格
- 从外部网站获取文档
- 从竞争对手的网站提取数据
- 实时核实信息
- 聚合来自多个来源的内容
这正是 MCP 发挥作用的地方。
什么是 MCP?
Model Context Protocol (MCP) 是 Anthropic 推出的开放标准,用于将 Claude 这样的 AI 助手连接到外部工具和数据源。可以把它理解为 Claude Desktop 的插件系统。
借助 MCP server,Claude 不再受限于其训练数据,而是可以:
- 从 API 和网站获取实时数据
- 执行操作,如 web scraping、数据库查询或文件操作
- 提供工具,让 Claude 能根据你的 prompt 智能地调用它们
CrawlForge MCP 是一个专用的 MCP server,它为 Claude 提供 20 个强大的 web scraping 工具,从基础的 URL 获取到 AI 驱动的研究无所不包。
前置条件
开始之前,请确保你已具备:
- 已安装 Claude Desktop(点此下载)
- 已安装 Node.js 18+(nodejs.org)
- 一个带 1,000 个 credits 的免费 CrawlForge 账户(点此注册)
就这些。无需编写代码。
第 1 步:获取你的 API key
首先,我们需要一个 API key 来对发往 CrawlForge 的请求进行身份验证:
- 访问 crawlforge.dev 并注册一个免费账户
- 你将获得 1,000 个免费 credits 作为起步(无需信用卡)
- 进入 Dashboard → API Keys
- 点击 "Create API Key"
- 给它起个名字(例如 "Claude Desktop")
- 复制 API key(它以
cf_live_开头)
⚠️ 重要: 请将此密钥保存在安全的地方。它只会显示一次。
第 2 步:配置 Claude Desktop
现在我们要把 CrawlForge 添加到 Claude 的 MCP 配置文件中。
找到你的配置文件
其位置取决于你的操作系统:
macOS:
Windows:
Linux:
添加 CrawlForge MCP server
在文本编辑器中打开该文件,并添加以下配置:
将 cf_live_YOUR_API_KEY_HERE 替换为你在第 1 步中复制的 API key。
如果你已经配置了其他 MCP server,只需将 "crawlforge" 这一项添加到已有的 "mcpServers" 对象中即可。
第 3 步:重启并测试
- 彻底退出 Claude Desktop(右键点击图标并选择 "Quit")
- 重新打开 Claude Desktop
- 你应该会在输入框中看到一个小工具图标(🔧),表示 MCP tools 已加载
要进行测试,试试这个 prompt:
Fetch the homepage of example.com and extract its text content
Claude 会自动使用 fetch_url 工具(1 credit)来抓取页面,然后使用 extract_text(1 credit)来解析内容。你应该会在回复中看到 example.com 的完整文本。
5 个实用示例
现在 CrawlForge 已经连接好了,下面是你可以做的事情:
1. 获取一个网页
Get me the HTML from https://news.ycombinator.com
Claude 使用 fetch_url(1 credit)来获取原始 HTML。
2. 提取文章内容
Extract the main content from this article: https://example.com/blog/post
Claude 使用 extract_content(2 credits)来识别并仅提取文章正文,去除广告和导航。
3. 获取所有链接
Find all external links on https://crawlforge.dev
Claude 使用 extract_links(1 credit)来解析所有 <a> 标签并返回这些 URL。
4. 分析页面元数据
What's the SEO metadata for https://github.com/trending?
Claude 使用 extract_metadata(1 credit)来提取标题标签、meta 描述、Open Graph 数据等。
5. 研究某个主题
Research "Next.js 16 new features" and summarize the top 5 findings with sources
Claude 使用 deep_research(10 credits)来:
- 搜索多个来源
- 提取相关内容
- 核实信息
- 综合出一份带引用的摘要
这是处理全面研究任务最强大的工具。
可用工具一览
CrawlForge 让 Claude 可以使用 20 个专用工具,按 credits 成本组织如下:
基础工具(每个 1 credit)
- fetch_url - 从任意 URL 获取原始 HTML
- extract_text - 干净的文本提取
- extract_links - 获取页面上的所有链接
- extract_metadata - SEO 和社交媒体标签
结构化提取(2 credits)
- scrape_structured - 基于 CSS 选择器的提取
- extract_content - 主体内容提取(文章、博客文章)
- map_site - 网站结构映射
- process_document - 从 PDF 和文档中提取文本
- localization - 地理定向 scraping(26 个国家/地区)
高级工具(3-5 credits)
- track_changes(3 credits)- 跟踪网站随时间的变化
- analyze_content(3 credits)- 情感分析、语言检测
- summarize_content(4 credits)- AI 驱动的摘要
- crawl_deep(4 credits)- 可控制深度的多页爬取
- stealth_mode(5 credits)- 反检测浏览
- scrape_with_actions(5 credits)- 浏览器自动化(点击、表单)
- batch_scrape(5 credits)- 并行处理多个 URL
- search_web(5 credits)- 集成 Google Custom Search
AI 研究(10 credits)
- deep_research - 多阶段研究,含来源核实与综合
credits 用量
每次工具调用都会从你的账户中扣除 credits:
- 免费套餐: 1,000 credits(视所用工具不同,大约够 100-500 次操作)
- Hobby: 5,000 credits/月,$19
- Professional: 50,000 credits/月,$99
- Business: 250,000 credits/月,$399
你可以在 dashboard 中监控用量。
高效使用的小贴士
- 从便宜的开始: 在已知 URL 时,使用
fetch_url(1 credit)而非search_web(5 credits) - 批量请求: 对多个 URL 使用
batch_scrape,而不是分别调用 - 缓存结果: 如果需要多次使用相同数据,把它保存在你的对话中
- 选用合适的工具: 不要用
deep_research(10 credits)来做简单的查询
故障排查
"No tools found" 错误:
- 确保你已彻底退出 Claude Desktop(而不只是关闭窗口)
- 检查你的 API key 是否有效(在 crawlforge.dev/dashboard/keys 测试)
- 核对配置文件中的 JSON 语法
"Insufficient credits" 错误:
- 在 crawlforge.dev/dashboard 查看你的余额
- 升级你的套餐或购买额外的 credits
工具调用失败:
- 部分网站会屏蔽 scraping——尝试
stealth_mode(5 credits)以获得更高的成功率 - 查看网站的
robots.txt是否有限制 - 确认 URL 正确且可访问
接下来呢?
现在你已在 Claude Desktop 中启用了 web scraping,接下来你可以:
- 构建从多个来源聚合数据的研究工作流
- 监控竞争对手网站的变化
- 提取结构化数据以供分析
- 为 AI 训练数据集自动化收集内容
如需更进阶的用法,请查看:
准备好升级了吗?查看价格套餐,或联系支持团队了解定制的企业级方案。
立即试用: 在 crawlforge.dev/signup 免费注册,即可获得 1,000 个 credits 开始使用。