数据治理

定义

数据治理是一套确保数据在其整个生命周期内得到妥善管理的政策、流程和标准框架。它涵盖数据隐私、合规、访问控制和质量标准。

与 CrawlForge 的关联

网页抓取活动必须遵守数据治理要求，包括隐私法规（GDPR、CCPA）、服务条款和 robots.txt 指令。组织需要就采集哪些数据、如何存储以及保留多久制定清晰的政策。

CrawlForge 通过默认遵守 robots.txt、借助使用日志提供清晰的审计轨迹，并提供只采集你所需特定数据字段的结构化提取，来支持数据治理——从而将无意中采集敏感信息的风险降至最低。

相关 CrawlForge 工具

crawl_deep

5 credits

scrape_structured

3 credits

相关术语

数据质量

数据质量衡量数据集在多大程度上满足其预期用途的要求。关键维度包括数据的准确性、完整性、一致性、时效性和有效性。

Robots.txt

Robots.txt 是放置在网站根目录的标准文本文件，它告诉网络爬虫哪些页面允许或禁止访问。它是机器人排除协议（Robots Exclusion Protocol）的一部分。

数据流水线

数据流水线是一系列自动化步骤，用于将数据从源端采集、处理、转换并交付到目标端。它使数据能在系统之间持续流动，无需人工干预。

网页数据

网页数据是指互联网上任何可公开访问的信息。它包括网站内容、社交媒体帖子、公开 API、政府记录，以及任何可通过网络协议获取的其他数据。