CrawlForge
LlamaIndex

LlamaIndex 集成

将 CrawlForge MCP 与 LlamaIndex 集成,构建具备网页抓取能力的数据连接器、索引和查询引擎。非常适合 RAG 应用和知识库。

使用场景

网页数据连接器
创建可自动抓取并索引网页内容的数据连接器
知识库
从网页和文档构建可搜索的知识库
查询引擎
创建带实时网页数据检索的查询引擎
文档处理
从 URL 提取并处理文档以供索引

安装

安装 LlamaIndex 和 CrawlForge MCP 适配器。

Bash
你还需要一个来自控制台的 CrawlForge API 密钥。

网页数据连接器

将 CrawlForge 用作数据连接器,以抓取并加载网页文档。

Typescript
提示: 使用 extract_content 进行干净的文章提取,或使用 extract_text 获取整页文本。

向量存储索引

从网页文档创建向量存储索引,以进行语义搜索。

Typescript

带工具的查询引擎

创建一个可按需抓取实时网页数据的查询引擎。

Typescript
智能体提示: 智能体会根据查询自动选择要使用的工具。设置 verbose=true 即可查看工具选择过程。

自定义网页检索器

构建一个根据查询抓取网页数据的自定义检索器。

Typescript

异步批处理

使用异步批处理操作高效处理多个 URL。

Typescript
性能提示: 处理多个 URL 时使用 batch_scrape——它针对并行执行进行了优化,每个 URL 仅花费 1 credit。

最佳实践

  • 选择高效工具 — 多个 URL 用 batch_scrape,干净文本用 extract_content
  • 实现缓存 — 缓存已索引的文档,避免重复抓取并节省 credits
  • 使用异步操作 — 利用 async/await 进行并行处理,以加速批量操作
  • 监控 credits — 在文档元数据中跟踪 credits 用量,并在你的控制台中设置告警
准备好用 LlamaIndex 构建了吗?
探索全部 23 个 CrawlForge 工具,或查看其他集成。
查看全部工具LangChain 集成