ETL（提取、转换、加载）

定义

ETL 是一种数据集成流程，它从源端提取数据、将其转换为合适的格式，并加载到目标系统中。它是在系统之间迁移数据的标准方法。

与 CrawlForge 的关联

ETL 中的"提取"阶段正是网页抓取的用武之地。CrawlForge 负责从网页来源提取数据，以可直接用于流水线后续转换和加载阶段的结构化格式返回数据。

对于基于网页的 ETL，CrawlForge 免去了为每个数据源构建自定义提取器的需要。batch_scrape 大规模提取数据，scrape_structured 应用 schema 来标准化输出，结果直接流入你的转换层。

相关 CrawlForge 工具

batch_scrape

5 credits

scrape_structured

3 credits

相关术语

数据流水线

数据流水线是一系列自动化步骤，用于将数据从源端采集、处理、转换并交付到目标端。它使数据能在系统之间持续流动，无需人工干预。

数据质量

数据质量衡量数据集在多大程度上满足其预期用途的要求。关键维度包括数据的准确性、完整性、一致性、时效性和有效性。

网页抓取

网页抓取是指从网站自动提取数据的过程。它通过程序化方式获取网页并解析其内容，从而采集结构化信息。

结构化输出

结构化输出是指以 JSON 等可预测、机器可读格式（而非自由文本）返回的数据。它使 AI 智能体和数据流水线能够进行可靠的下游处理。