Markdown
数据定义
Markdown 是一种使用纯文本格式语法的轻量级标记语言。它被广泛用于文档撰写、内容创作,并作为提取网页内容的干净中间格式。
与 CrawlForge 的关联
Markdown 在保留内容结构(标题、列表、链接、代码块)的同时剥离了 HTML 的复杂性。当你需要可读的结构化文本而非原始 HTML 或纯文本时,这使其成为网页抓取的理想输出格式。
CrawlForge 的 extract_content 支持以 Markdown 作为输出格式,将网页转换为保留文档结构的干净 Markdown。这对于内容迁移、文档抓取以及向善于处理 Markdown 的 AI 模型提供内容尤为有用。