DOM 解析

定义

DOM 解析是将原始 HTML 转换为结构化文档对象模型（DOM）树的过程。这种树形表示让程序能够导航并从网页中提取特定元素。

与 CrawlForge 的关联

CrawlForge 在获取网页时会解析 DOM，以在提取内容之前理解页面结构。正是这一点让 extract_structured 等工具能够基于 CSS 选择器或 schema 定义提取特定数据字段。

DOM 解析对于动态内容尤为重要，因为这类页面初始 HTML 与你在浏览器中看到的内容并不相同。CrawlForge 会在需要时使用无头浏览器渲染页面来处理这一问题，确保解析得到的 DOM 与真实用户所见一致。

相关 CrawlForge 工具

extract_structured

3 credits

extract_content

2 credits

相关术语

CSS 选择器

CSS 选择器是一种用于选取并定位网页上特定 HTML 元素的模式。在网页抓取中，选择器精确指明要从页面结构中提取哪些数据。

XPath

XPath（XML Path Language）是一种用于从 XML 或 HTML 文档中选取节点的查询语言。相比单独使用 CSS 选择器，它提供了更强大、更灵活的文档树导航方式。

HTML 解析

HTML 解析是分析 HTML 标记以提取其结构和内容的过程。解析器将原始 HTML 字符串转换为程序可查询和操作的可导航树形结构。

动态内容

动态内容是指在页面初始加载之后由 JavaScript 加载或生成的网页内容。这包括单页应用、通过 AJAX 加载的数据以及客户端渲染的内容。