AI 训练数据采集

采集并结构化大规模网页数据集，用于微调和训练 AI 模型。

快速解答

用 CrawlForge batch_scrape（5 credits）并行抓取数百个 URL，再用 extract_content（2 credits）返回干净、无样板的文本或 markdown，可直接用于训练流水线。您收集的是结构化内容，而非嘈杂的原始 HTML，从而提升数据集质量并降低预处理成本——每篇文档约 7 credits。

面临的问题

训练和微调 AI 模型需要来自多样网络来源的大规模、干净的数据集。手动采集这些数据并不现实，而原始 HTML 噪声过多，不适合用于模型训练。

解决方案

CrawlForge 的 batch_scrape 并行处理数百个 URL 以实现规模化，extract_content 则返回干净、结构化的文本，可直接用于训练管道。从任何网络来源构建数据集。

代码示例

// Collect training data from documentation sites
const batch = await mcp.batch_scrape({
  urls: [
    "https://docs.example.com/guide/intro",
    "https://docs.example.com/guide/setup",
    "https://docs.example.com/guide/advanced",
    // ... hundreds more URLs
  ],
  format: "markdown",
});

// Extract clean content for each page
const dataset = await Promise.all(
  batch.results.map(page =>
    mcp.extract_content({
      url: page.url,
      format: "text",
      remove_navigation: true,
    })
  )
);

console.log(`Collected ${dataset.length} documents`);

使用的工具

batch_scrape5 credits

extract_content2 credits

预估费用：每篇文档约 7 credits

常见问题

如何大规模地从网络上采集干净的训练数据？

使用 CrawlForge 的 batch_scrape 并行抓取数百个 URL，再用 extract_content 返回干净、无样板内容的文本，可直接用于训练管道。你得到的是结构化内容，而不是嘈杂的原始 HTML。

为什么不直接用原始 HTML 来训练模型？

原始 HTML 充斥着导航、广告和标记，会带来噪声并浪费 tokens。extract_content 通过一次可读性处理，只返回主体内容，形式为干净的文本或 markdown，从而提升数据集质量并降低预处理成本。

我能从多个来源构建一个大型数据集吗？

可以。batch_scrape 每批 5 credits，可跨数百个 URL 并行抓取，extract_content 每次 2 credits，负责清洗每一个页面。再结合 map_site 先枚举出一个来源，然后对得到的 URL 进行批量处理。

CrawlForge 在采集数据时会遵守 robots.txt 吗？

CrawlForge 会遵守 robots 指令，而且由你来控制爬取哪些来源。你需要对所采集数据的权利负责，因此请只针对你有权用于训练的网站，并让你的爬取范围保持审慎克制。

准备好开始了吗？

每个新账户均可获得 1,000 个免费 credits，无需信用卡。

免费领取 1,000 个 credits 开始使用

相关应用案例

AI 智能体数据管道

通过结构化提取与多源研究，为你的 AI 智能体提供实时网页数据。

deep_research (10 cr)extract_content (2 cr)

内容迁移

从旧版网站提取并重构内容，迁移至现代化平台。

crawl_deep (4 cr)extract_text (1 cr)

快速解答

代码示例

// Collect training data from documentation sites const batch = await mcp.batch_scrape({ urls: [ "https://docs.example.com/guide/intro", "https://docs.example.com/guide/setup", "https://docs.example.com/guide/advanced", // ... hundreds more URLs ], format: "markdown", }); // Extract clean content for each page const dataset = await Promise.all( batch.results.map(page => mcp.extract_content({ url: page.url, format: "text", remove_navigation: true, }) ) ); console.log(`Collected ${dataset.length} documents`);

常见问题

如何大规模地从网络上采集干净的训练数据？

为什么不直接用原始 HTML 来训练模型？

我能从多个来源构建一个大型数据集吗？

CrawlForge 在采集数据时会遵守 robots.txt 吗？