DOM 解析
网页抓取定义
DOM 解析是将原始 HTML 转换为结构化文档对象模型(DOM)树的过程。这种树形表示让程序能够导航并从网页中提取特定元素。
与 CrawlForge 的关联
CrawlForge 在获取网页时会解析 DOM,以在提取内容之前理解页面结构。正是这一点让 extract_structured 等工具能够基于 CSS 选择器或 schema 定义提取特定数据字段。
DOM 解析对于动态内容尤为重要,因为这类页面初始 HTML 与你在浏览器中看到的内容并不相同。CrawlForge 会在需要时使用无头浏览器渲染页面来处理这一问题,确保解析得到的 DOM 与真实用户所见一致。
相关 CrawlForge 工具
相关术语
CSS 选择器
CSS 选择器是一种用于选取并定位网页上特定 HTML 元素的模式。在网页抓取中,选择器精确指明要从页面结构中提取哪些数据。
XPath
XPath(XML Path Language)是一种用于从 XML 或 HTML 文档中选取节点的查询语言。相比单独使用 CSS 选择器,它提供了更强大、更灵活的文档树导航方式。
HTML 解析
HTML 解析是分析 HTML 标记以提取其结构和内容的过程。解析器将原始 HTML 字符串转换为程序可查询和操作的可导航树形结构。
动态内容
动态内容是指在页面初始加载之后由 JavaScript 加载或生成的网页内容。这包括单页应用、通过 AJAX 加载的数据以及客户端渲染的内容。