结构化数据
数据定义
结构化数据是以预定义格式组织的信息,便于机器解析和理解。在网络上,它通常指嵌入在 HTML 页面中的 schema.org 标记。
与 CrawlForge 的关联
网站上的结构化数据包括以机器可读格式描述内容的 JSON-LD、microdata 和 RDFa 注解。搜索引擎用它来生成富摘要,而抓取器可以利用它实现可靠的数据提取。
CrawlForge 的 extract_metadata 会自动检测并解析任意页面中的结构化数据。这为数据提取提供了一条捷径——你往往无需为每个字段编写 CSS 选择器,即可直接从页面的结构化数据中获取产品价格、评分、库存情况等信息。
相关 CrawlForge 工具
相关术语
JSON-LD
JSON-LD(JSON for Linking Data)是一种使用 JSON 格式编码结构化数据的方法。它是在网页中嵌入 schema.org 标记以供搜索引擎理解的首选格式。
Schema 标记
Schema 标记是一套(来自 schema.org 的)标签词汇,你将其添加到 HTML 中,以改善搜索引擎读取和呈现你页面的方式。它定义了 Product、Article、Organization 等类型及其属性。
JSON
JSON(JavaScript Object Notation)是一种轻量级的数据交换格式,易于人类阅读、便于机器解析。它是 API 响应和结构化数据交换的标准格式。
结构化输出
结构化输出是指以 JSON 等可预测、机器可读格式(而非自由文本)返回的数据。它使 AI 智能体和数据流水线能够进行可靠的下游处理。