Schema 标记
数据定义
Schema 标记是一套(来自 schema.org 的)标签词汇,你将其添加到 HTML 中,以改善搜索引擎读取和呈现你页面的方式。它定义了 Product、Article、Organization 等类型及其属性。
与 CrawlForge 的关联
Schema 标记告诉搜索引擎你的内容含义为何,而不仅仅是字面内容。带有 Product schema 标记的页面会明确声明某产品的名称、价格、库存情况和评价,从而支持富搜索结果。
对网页抓取而言,schema 标记是一座金矿。CrawlForge 的 extract_metadata 会从页面中提取 schema 标记,提供结构化的产品数据、文章元数据和企业信息,而不会有基于 CSS 选择器提取那样的脆弱性。
相关 CrawlForge 工具
相关术语
JSON-LD
JSON-LD(JSON for Linking Data)是一种使用 JSON 格式编码结构化数据的方法。它是在网页中嵌入 schema.org 标记以供搜索引擎理解的首选格式。
结构化数据
结构化数据是以预定义格式组织的信息,便于机器解析和理解。在网络上,它通常指嵌入在 HTML 页面中的 schema.org 标记。
SEO 审计
SEO 审计是对网站搜索引擎优化表现的全面分析。它评估技术 SEO、页面内容、元数据、站点结构,并识别可改进的机会。
HTML 解析
HTML 解析是分析 HTML 标记以提取其结构和内容的过程。解析器将原始 HTML 字符串转换为程序可查询和操作的可导航树形结构。