LlamaIndex
LlamaIndex 集成
将 CrawlForge MCP 与 LlamaIndex 集成,构建具备网页抓取能力的数据连接器、索引和查询引擎。非常适合 RAG 应用和知识库。
使用场景
网页数据连接器
创建可自动抓取并索引网页内容的数据连接器
知识库
从网页和文档构建可搜索的知识库
查询引擎
创建带实时网页数据检索的查询引擎
文档处理
从 URL 提取并处理文档以供索引
安装
安装 LlamaIndex 和 CrawlForge MCP 适配器。
Bash
你还需要一个来自控制台的 CrawlForge API 密钥。
网页数据连接器
将 CrawlForge 用作数据连接器,以抓取并加载网页文档。
Typescript
提示: 使用
extract_content 进行干净的文章提取,或使用 extract_text 获取整页文本。向量存储索引
从网页文档创建向量存储索引,以进行语义搜索。
Typescript
带工具的查询引擎
创建一个可按需抓取实时网页数据的查询引擎。
Typescript
智能体提示: 智能体会根据查询自动选择要使用的工具。设置
verbose=true 即可查看工具选择过程。自定义网页检索器
构建一个根据查询抓取网页数据的自定义检索器。
Typescript
异步批处理
使用异步批处理操作高效处理多个 URL。
Typescript
性能提示: 处理多个 URL 时使用
batch_scrape——它针对并行执行进行了优化,每个 URL 仅花费 1 credit。最佳实践
- 选择高效工具 — 多个 URL 用
batch_scrape,干净文本用extract_content - 实现缓存 — 缓存已索引的文档,避免重复抓取并节省 credits
- 使用异步操作 — 利用 async/await 进行并行处理,以加速批量操作
- 监控 credits — 在文档元数据中跟踪 credits 用量,并在你的控制台中设置告警
准备好用 LlamaIndex 构建了吗?
探索全部 23 个 CrawlForge 工具,或查看其他集成。