如何将 CrawlForge 与 LangChain 集成？

把 CrawlForge 的 REST 端点封装到异步的 TypeScript helper 中，然后把结果传入 RecursiveCharacterTextSplitter 和 MemoryVectorStore 等 LangChain 原语。该文章会带你走过五种具体模式，包括 web 增强的 RAG、研究 agent、竞争情报、文档处理和实时监控。

在 LangChain RAG 流水线中，CrawlForge 调用要花多少 credits？

web 增强的 RAG 使用 extract_content，每获取一个 URL 花费 2 credits。对于每次查询拉取 4-5 个网页来源的典型 RAG 运行，预计每个问题 8-10 credits——完全在 1,000 credits 免费套餐范围内，足以用于原型开发。

LangChain agent 能否自主调用多个 CrawlForge 工具？

可以。本教程中的研究 agent 模式让 Claude 把 search_web、extract_content 和 deep_research 作为工具使用，并让模型根据用户的问题决定调用哪一个。这正是你构建无需人工介入、自主研究主题的 agent 的方式。

在 LangChain 中提升 credits 效率的最佳实践有哪些？

积极使用缓存以避免重复获取相同的 URL，尽可能批量发送请求，并通过指数退避优雅地处理速率限制。文章为这三种模式都提供了可运行的 TypeScript 示例。

MCP 对比 REST：我们为何打造原生 MCP scraping server

AI 工具生态正在快速演进。随着大语言模型能力日益增强，我们如何把它们连接到外部工具和数据源，变得比以往任何时候都更重要。

在 CrawlForge，我们做出了一个深思熟虑的选择：以 MCP 为先，而非以 REST 为先。下面解释为什么这个决定塑造了我们所做的一切，以及它对构建 AI 应用的开发者意味着什么。

理解 Model Context Protocol

Model Context Protocol（MCP）是 Anthropic 用于将 AI 模型连接到外部工具的开放标准。它不只是又一个 API——它是对 AI agent 应如何与世界交互的重新思考。

MCP 的工作原理

MCP 的核心是在标准 I/O 之上使用 JSON-RPC 2.0。但其精妙之处在于抽象：

Typescript

// MCP tool definition
{
  "name": "fetch_url",
  "description": "Fetch content from a URL with automatic redirect handling",
  "inputSchema": {
    "type": "object",
    "properties": {
      "url": { "type": "string", "format": "uri" },
      "headers": { "type": "object" },
      "timeout": { "type": "number", "default": 10000 }
    },
    "required": ["url"]
  }
}

当你在 Claude Desktop 中配置一个 MCP server 时，AI 会：

自动发现可用工具
从描述和 schema 中理解工具能力
根据用户意图智能调用工具
以结构化方式处理响应

无需自定义集成代码，无需 API wrapper。只需描述你的工具，Claude 就知道如何使用它们。

传统的 REST 方式

大多数 web scraping API 使用 REST。它熟悉、易懂，且随处可用：

Bash

curl -X POST https://api.example.com/v1/scrape \
  -H "Authorization: Bearer sk_xxx" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'

REST 的优势

通用兼容性 —— 可从任何语言、任何平台使用
简单的心智模型 —— HTTP 请求 → JSON 响应
丰富的工具链 —— Postman、cURL、各种 HTTP 客户端
成熟的生态 —— 速率限制、缓存、负载均衡都已被充分理解

REST 在 AI 场景下的局限

但在构建 AI 应用时，REST 存在局限：

没有自动发现 —— 你必须阅读文档并编写集成代码
没有语义理解 —— AI 无法理解各个端点的作用
手动编排 —— 你要写代码来决定调用哪个端点
没有上下文保留 —— 每个请求都是无状态的

为什么 MCP 在 AI 应用中胜出

1. 类型安全的工具 schema

MCP 工具用 JSON Schema 声明其输入和输出：

Typescript

// CrawlForge MCP tool schema
{
  "name": "deep_research",
  "description": "Perform comprehensive multi-stage research with source verification",
  "inputSchema": {
    "type": "object",
    "properties": {
      "topic": {
        "type": "string",
        "description": "Research topic or question"
      },
      "maxSources": {
        "type": "number",
        "default": 10,
        "description": "Maximum sources to analyze"
      },
      "depth": {
        "type": "string",
        "enum": ["shallow", "moderate", "deep"],
        "default": "moderate"
      }
    },
    "required": ["topic"]
  }
}

Claude 理解这个 schema，因而能够：

在调用前校验输入
解释各参数的作用
建议合适的取值
优雅地处理错误

2. 自动工具发现

使用 REST，你需要：

阅读 API 文档
编写 wrapper 函数
处理身份验证
管理不同的响应格式

使用 MCP：

配置一次 server
工具自动可用
Claude 知道如何使用它们

3. 内置 credits 跟踪

CrawlForge MCP 在工具层级跟踪 credits：

Json

{
  "result": {
    "content": "...",
    "metadata": {
      "credits_used": 5,
      "credits_remaining": 995,
      "tool": "search_web"
    }
  }
}

用户无需自建跟踪系统，即可实时看到 credits 用量。

4. 上下文保留

MCP 会在多次工具调用之间保留上下文。在一次研究会话中：

search_web 查找来源
extract_content 获取文章文本
analyze_content 识别关键主题
Claude 在完整上下文下进行综合

每次工具调用都建立在之前结果的基础之上。而 REST 需要你手动管理这一上下文。

性能对比

方面	REST	MCP
配置时间	2-4 小时（读文档、写代码）	5 分钟（配置一次）
集成代码	每个 API 100-500 行	0 行（由 schema 驱动）
错误处理	手动（到处 try/catch）	内置（标准化错误）
工具选择	你来决定调用哪个端点	AI 根据意图决定
响应解析	手动（各端点各异）	自动（标准化格式）
身份验证	每个请求的请求头	一次性环境配置

为什么 CrawlForge 两者都支持

我们相信要在开发者所在之处与他们相遇：

MCP 为先：与 Claude Desktop 及兼容 AI 工具的原生集成
REST 兼容：从任何语言或平台使用我们的 API

两种接口都：

共享同样的 26 个工具
使用同一套 credit 系统
返回一致的响应格式
拥有等同的速率限制

何时使用 MCP

使用 Claude Desktop 进行构建
创建需要网络访问的 AI agent
快速搭建 AI 应用原型
使用兼容的 AI 框架

何时使用 REST

服务器端应用
非 Claude 的 AI 模型
遗留系统集成
自定义编排需求

用 MCP 构建：实用技巧

1. 设计清晰的工具描述

AI 会根据描述来选择工具。请具体一些：

❌ "Scrapes a website"
✅ "Fetch raw HTML content from a URL with automatic redirect handling and custom timeout"

2. 使用语义化的输入名称

❌ { "p1": "string", "p2": "number" }
✅ { "url": "string", "timeout_ms": "number" }

3. 返回结构化数据

Json

{
  "success": true,
  "data": {
    "content": "...",
    "metadata": { ... }
  },
  "credits": {
    "used": 2,
    "remaining": 998
  }
}

4. 优雅地处理错误

Json

{
  "success": false,
  "error": {
    "code": "RATE_LIMITED",
    "message": "Too many requests. Try again in 60 seconds.",
    "retryAfter": 60
  }
}

AI 工具集成的未来

MCP 生态正在快速增长：

2026 年 MCP server 下载量超过 800 万次
提供 5,800+ 个公开 server
获得 OpenAI、Microsoft、Google 等的广泛采用
来自 Anthropic 的企业级支持

我们正见证一种转变：从“调用 API 的 AI”走向“具备原生工具理解能力的 AI”。MCP 正在引领这一转变。

开始上手

准备好尝试 MCP 优先的 web scraping 了吗？

在 crawlforge.dev 注册 —— 1,000 个免费 credits
配置 Claude Desktop —— 5 分钟搞定
开始 scraping —— 只需让 Claude 去获取、提取或研究

查看我们的 Claude Desktop 集成指南了解详细的配置说明，或浏览完整的 MCP web scraping 指南以深入了解该协议。

有问题？ 在 GitHub 或 Twitter 上联系我们。

AI 工具生态正在快速演进。随着大语言模型能力日益增强，我们如何把它们连接到外部工具和数据源，变得比以往任何时候都更重要。

理解 Model Context Protocol

Model Context Protocol（MCP）是 Anthropic 用于将 AI 模型连接到外部工具的开放标准。它不只是又一个 API——它是对 AI agent 应如何与世界交互的重新思考。

MCP 的工作原理

MCP 的核心是在标准 I/O 之上使用 JSON-RPC 2.0。但其精妙之处在于抽象：

Typescript

// MCP tool definition
{
  "name": "fetch_url",
  "description": "Fetch content from a URL with automatic redirect handling",
  "inputSchema": {
    "type": "object",
    "properties": {
      "url": { "type": "string", "format": "uri" },
      "headers": { "type": "object" },
      "timeout": { "type": "number", "default": 10000 }
    },
    "required": ["url"]
  }
}

当你在 Claude Desktop 中配置一个 MCP server 时，AI 会：

自动发现可用工具
从描述和 schema 中理解工具能力
根据用户意图智能调用工具
以结构化方式处理响应

无需自定义集成代码，无需 API wrapper。只需描述你的工具，Claude 就知道如何使用它们。

传统的 REST 方式

大多数 web scraping API 使用 REST。它熟悉、易懂，且随处可用：

Bash

curl -X POST https://api.example.com/v1/scrape \
  -H "Authorization: Bearer sk_xxx" \
  -H "Content-Type: application/json" \
  -d '{"url": "https://example.com"}'

REST 的优势

通用兼容性 —— 可从任何语言、任何平台使用
简单的心智模型 —— HTTP 请求 → JSON 响应
丰富的工具链 —— Postman、cURL、各种 HTTP 客户端
成熟的生态 —— 速率限制、缓存、负载均衡都已被充分理解

REST 在 AI 场景下的局限

但在构建 AI 应用时，REST 存在局限：

没有自动发现 —— 你必须阅读文档并编写集成代码
没有语义理解 —— AI 无法理解各个端点的作用
手动编排 —— 你要写代码来决定调用哪个端点
没有上下文保留 —— 每个请求都是无状态的

为什么 MCP 在 AI 应用中胜出

1. 类型安全的工具 schema

MCP 工具用 JSON Schema 声明其输入和输出：

Typescript

// CrawlForge MCP tool schema
{
  "name": "deep_research",
  "description": "Perform comprehensive multi-stage research with source verification",
  "inputSchema": {
    "type": "object",
    "properties": {
      "topic": {
        "type": "string",
        "description": "Research topic or question"
      },
      "maxSources": {
        "type": "number",
        "default": 10,
        "description": "Maximum sources to analyze"
      },
      "depth": {
        "type": "string",
        "enum": ["shallow", "moderate", "deep"],
        "default": "moderate"
      }
    },
    "required": ["topic"]
  }
}

Claude 理解这个 schema，因而能够：

在调用前校验输入
解释各参数的作用
建议合适的取值
优雅地处理错误

2. 自动工具发现

使用 REST，你需要：

阅读 API 文档
编写 wrapper 函数
处理身份验证
管理不同的响应格式

使用 MCP：

配置一次 server
工具自动可用
Claude 知道如何使用它们

3. 内置 credits 跟踪

CrawlForge MCP 在工具层级跟踪 credits：

Json

{
  "result": {
    "content": "...",
    "metadata": {
      "credits_used": 5,
      "credits_remaining": 995,
      "tool": "search_web"
    }
  }
}

用户无需自建跟踪系统，即可实时看到 credits 用量。

4. 上下文保留

MCP 会在多次工具调用之间保留上下文。在一次研究会话中：

search_web 查找来源
extract_content 获取文章文本
analyze_content 识别关键主题
Claude 在完整上下文下进行综合

每次工具调用都建立在之前结果的基础之上。而 REST 需要你手动管理这一上下文。

性能对比

方面	REST	MCP
配置时间	2-4 小时（读文档、写代码）	5 分钟（配置一次）
集成代码	每个 API 100-500 行	0 行（由 schema 驱动）
错误处理	手动（到处 try/catch）	内置（标准化错误）
工具选择	你来决定调用哪个端点	AI 根据意图决定
响应解析	手动（各端点各异）	自动（标准化格式）
身份验证	每个请求的请求头	一次性环境配置

为什么 CrawlForge 两者都支持

我们相信要在开发者所在之处与他们相遇：

MCP 为先：与 Claude Desktop 及兼容 AI 工具的原生集成
REST 兼容：从任何语言或平台使用我们的 API

两种接口都：

共享同样的 26 个工具
使用同一套 credit 系统
返回一致的响应格式
拥有等同的速率限制

何时使用 MCP

使用 Claude Desktop 进行构建
创建需要网络访问的 AI agent
快速搭建 AI 应用原型
使用兼容的 AI 框架

何时使用 REST

服务器端应用
非 Claude 的 AI 模型
遗留系统集成
自定义编排需求

用 MCP 构建：实用技巧

1. 设计清晰的工具描述

AI 会根据描述来选择工具。请具体一些：

❌ "Scrapes a website"
✅ "Fetch raw HTML content from a URL with automatic redirect handling and custom timeout"

2. 使用语义化的输入名称

❌ { "p1": "string", "p2": "number" }
✅ { "url": "string", "timeout_ms": "number" }

3. 返回结构化数据

Json

{
  "success": true,
  "data": {
    "content": "...",
    "metadata": { ... }
  },
  "credits": {
    "used": 2,
    "remaining": 998
  }
}

4. 优雅地处理错误

Json

{
  "success": false,
  "error": {
    "code": "RATE_LIMITED",
    "message": "Too many requests. Try again in 60 seconds.",
    "retryAfter": 60
  }
}

AI 工具集成的未来

MCP 生态正在快速增长：

2026 年 MCP server 下载量超过 800 万次
提供 5,800+ 个公开 server
获得 OpenAI、Microsoft、Google 等的广泛采用
来自 Anthropic 的企业级支持

我们正见证一种转变：从“调用 API 的 AI”走向“具备原生工具理解能力的 AI”。MCP 正在引领这一转变。

开始上手

准备好尝试 MCP 优先的 web scraping 了吗？

在 crawlforge.dev 注册 —— 1,000 个免费 credits
配置 Claude Desktop —— 5 分钟搞定
开始 scraping —— 只需让 Claude 去获取、提取或研究

查看我们的 Claude Desktop 集成指南了解详细的配置说明，或浏览完整的 MCP web scraping 指南以深入了解该协议。

有问题？ 在 GitHub 或 Twitter 上联系我们。

本页内容

理解 Model Context Protocol

MCP 的工作原理

传统的 REST 方式

REST 的优势

REST 在 AI 场景下的局限

为什么 MCP 在 AI 应用中胜出

1. 类型安全的工具 schema

2. 自动工具发现

3. 内置 credits 跟踪

4. 上下文保留

性能对比

为什么 CrawlForge 两者都支持

何时使用 MCP

何时使用 REST

用 MCP 构建：实用技巧

1. 设计清晰的工具描述

2. 使用语义化的输入名称

3. 返回结构化数据

4. 优雅地处理错误

AI 工具集成的未来

开始上手

亲自试一试——无需注册

标签

关于作者

CrawlForge Team

及时获取最新洞察

Frequently Asked Questions

相关文章

2026 年最佳网页抓取 MCP server（Top 8 排名）

CrawlForge vs Firecrawl vs Tavily vs Exa：面向 AI 智能体的最佳 Web 数据 API（2026）

用 Claude 进行网页抓取：完整指南（2026）

本页内容

理解 Model Context Protocol

MCP 的工作原理

传统的 REST 方式

REST 的优势

REST 在 AI 场景下的局限

为什么 MCP 在 AI 应用中胜出

1. 类型安全的工具 schema

2. 自动工具发现

3. 内置 credits 跟踪

4. 上下文保留

性能对比

为什么 CrawlForge 两者都支持

何时使用 MCP

何时使用 REST

用 MCP 构建：实用技巧

1. 设计清晰的工具描述

2. 使用语义化的输入名称

3. 返回结构化数据

4. 优雅地处理错误

AI 工具集成的未来

开始上手

亲自试一试——无需注册

标签

关于作者

CrawlForge Team

及时获取最新洞察

Frequently Asked Questions

相关文章

2026 年最佳网页抓取 MCP server（Top 8 排名）

CrawlForge vs Firecrawl vs Tavily vs Exa：面向 AI 智能体的最佳 Web 数据 API（2026）

用 Claude 进行网页抓取：完整指南（2026）