网页抓取 <span class="bg-linear-to-r from-blue-600 to-purple-600 bg-clip-text text-transparent">术语表

AI 智能体是由大语言模型驱动的自主系统，能够对任务进行推理、做出决策，并通过使用工具来采取行动。智能体超越了简单的聊天机器人，能够规划并执行多步骤工作流。

API 端点

API 端点是 API 接收请求的特定 URL。每个端点执行特定功能，例如获取数据、创建记录或触发操作。

C

CSS 选择器

CSS 选择器是一种用于选取并定位网页上特定 HTML 元素的模式。在网页抓取中，选择器精确指明要从页面结构中提取哪些数据。

D

DOM 解析

DOM 解析是将原始 HTML 转换为结构化文档对象模型（DOM）树的过程。这种树形表示让程序能够导航并从网页中提取特定元素。

E

ETL（提取、转换、加载）

ETL 是一种数据集成流程，它从源端提取数据、将其转换为合适的格式，并加载到目标系统中。它是在系统之间迁移数据的标准方法。

G

GraphQL

GraphQL 是一种 API 查询语言，允许客户端精确请求所需的数据。与 REST 不同，单个 GraphQL 端点即可服务所有查询，由客户端指定数据的结构。

H

HTML 解析

HTML 解析是分析 HTML 标记以提取其结构和内容的过程。解析器将原始 HTML 字符串转换为程序可查询和操作的可导航树形结构。

HTTP 请求头

HTTP 请求头是随 HTTP 请求和响应一同发送的键值对，提供有关本次通信的元数据。在抓取中，User-Agent、Accept 和 Cookie 等请求头对请求成功与否至关重要。

J

JSON

JSON（JavaScript Object Notation）是一种轻量级的数据交换格式，易于人类阅读、便于机器解析。它是 API 响应和结构化数据交换的标准格式。

JSON-LD

JSON-LD（JSON for Linking Data）是一种使用 JSON 格式编码结构化数据的方法。它是在网页中嵌入 schema.org 标记以供搜索引擎理解的首选格式。

M

Markdown

Markdown 是一种使用纯文本格式语法的轻量级标记语言。它被广泛用于文档撰写、内容创作，并作为提取网页内容的干净中间格式。

MCP Client

MCP client 是连接到 MCP server 以发现并调用工具的应用程序或 AI 模型。它发送工具调用请求，并处理服务器返回的结构化响应。

MCP Server

MCP server 是一种通过 Model Context Protocol 暴露工具和资源的服务。它注册可用函数，处理来自 AI 客户端的传入工具调用，并返回结构化结果。

Model Context Protocol (MCP)

Model Context Protocol 是一项开放标准，使 AI 模型能够通过统一接口与外部工具和数据源交互。它为 LLM 提供了一种结构化的方式来调用函数、访问 API 和获取实时信息。

R

REST API

REST API（Representational State Transfer，表征状态转移）是一种使用标准 HTTP 方法对资源执行操作的 Web 服务架构。它是 Web 服务最常见的 API 风格。

Robots.txt

Robots.txt 是放置在网站根目录的标准文本文件，它告诉网络爬虫哪些页面允许或禁止访问。它是机器人排除协议（Robots Exclusion Protocol）的一部分。

S

Schema 标记

Schema 标记是一套（来自 schema.org 的）标签词汇，你将其添加到 HTML 中，以改善搜索引擎读取和呈现你页面的方式。它定义了 Product、Article、Organization 等类型及其属性。

SEO 审计

SEO 审计是对网站搜索引擎优化表现的全面分析。它评估技术 SEO、页面内容、元数据、站点结构，并识别可改进的机会。

T

Token

token 是语言模型处理的基本文本单位。文本在被模型处理前会被切分为 token（每个 token 大约 4 个字符或 0.75 个单词）。token 数量决定了成本和上下文限制。

U

User Agent

User Agent 是在 HTTP 请求头中发送的字符串，用于标识发起请求的客户端软件。网站借此检测浏览器、机器人和抓取器。

W

Webhook

Webhook 是一种 HTTP 回调，会在事件发生时将数据投递到指定的 URL。与轮询不同，webhook 实时推送数据，从而支持事件驱动的架构。

X

XPath

XPath（XML Path Language）是一种用于从 XML 或 HTML 文档中选取节点的查询语言。相比单独使用 CSS 选择器，它提供了更强大、更灵活的文档树导航方式。

上

上下文窗口

上下文窗口是语言模型在单次请求中能够处理的最大文本量（以 token 计）。它同时包含输入提示词和生成的输出。

代

代理轮换

代理轮换是指在发起网页请求时循环使用多个代理 IP 地址的做法。它将请求分散到不同的 IP，以规避速率限制和基于 IP 的封禁。

价

价格监控

价格监控是随时间自动追踪各网站产品和服务价格的工作。它使企业能够响应竞争对手的价格变化、优化自身定价并识别市场趋势。

内

内容迁移

内容迁移是将内容从一个平台或系统迁移到另一个平台或系统的过程。它涉及从源端提取内容、将其转换为匹配目标格式，并加载到新系统中。

函

函数调用

函数调用是语言模型在对话过程中调用外部函数或 API 的能力。模型决定何时调用函数、生成相应的参数，并处理返回的结果。

分

分页

分页是将内容分散到多个页面的做法。在网页抓取中处理分页，意味着自动遍历所有页面以采集完整的数据集。

动

动态内容

动态内容是指在页面初始加载之后由 JavaScript 加载或生成的网页内容。这包括单页应用、通过 AJAX 加载的数据以及客户端渲染的内容。

向

向量数据库

向量数据库是一种专门设计用于存储和高效查询高维向量嵌入的数据库。它支持在数百万条嵌入文档之间进行快速相似度搜索。

大

大语言模型 (LLM)

大语言模型是一种在海量文本数据上训练的神经网络，能够理解并生成人类语言。LLM 为 AI 助手、代码生成器和自主智能体提供动力。

嵌

嵌入向量

嵌入向量是文本、图像或其他数据的稠密数值向量表示。它们以一种支持相似度搜索、聚类及其他机器学习操作的格式捕捉语义含义。

工

工具使用

工具使用是 AI 模型与外部工具、API 和服务交互以完成文本生成之外任务的能力。它将模型能力扩展到包括网页浏览、代码执行、数据获取等。

微

微调

微调是在特定数据集上对预训练语言模型进行进一步训练，以使其行为针对特定任务或领域专门化的过程。它将通用模型适配到有针对性的使用场景。

提

提示词工程

提示词工程是设计和优化给语言模型的指令以获得预期输出的实践。它涉及编写系统提示词、少样本示例和结构化查询。

数

数据治理

数据治理是一套确保数据在其整个生命周期内得到妥善管理的政策、流程和标准框架。它涵盖数据隐私、合规、访问控制和质量标准。

数据流水线

数据流水线是一系列自动化步骤，用于将数据从源端采集、处理、转换并交付到目标端。它使数据能在系统之间持续流动，无需人工干预。

数据质量

数据质量衡量数据集在多大程度上满足其预期用途的要求。关键维度包括数据的准确性、完整性、一致性、时效性和有效性。

无

无头浏览器

无头浏览器是一种没有图形用户界面、可通过程序控制的网页浏览器。它像普通浏览器一样执行 JavaScript 并渲染页面，但在后台运行。

检

检索增强生成 (RAG)

RAG 是一种将信息检索与文本生成相结合的 AI 架构。它先从外部来源检索相关文档，再将其作为上下文供语言模型生成准确且有依据的回答。

站

站点地图

站点地图是一个列出网站上所有 URL 的 XML 文件，同时附带最后修改日期和优先级等元数据。它帮助搜索引擎和爬虫高效地发现并索引所有页面。

竞

竞争情报

竞争情报是对竞争对手、市场趋势和行业动态相关信息进行系统性采集与分析的工作。它为关于定价、定位和产品开发的战略决策提供依据。

线

线索富集

线索富集是用公司规模、行业、技术栈和社交资料等附加数据点来补充基础线索信息的过程。它帮助销售团队对触达进行优先排序和个性化。

结

结构化数据

结构化数据是以预定义格式组织的信息，便于机器解析和理解。在网络上，它通常指嵌入在 HTML 页面中的 schema.org 标记。

结构化输出

结构化输出是指以 JSON 等可预测、机器可读格式（而非自由文本）返回的数据。它使 AI 智能体和数据流水线能够进行可靠的下游处理。

网

网络爬虫

网络爬虫是一种通过在页面之间跟随链接来系统性地浏览网络的程序。爬虫可以在整个网站或域名范围内发现并索引内容。

网页抓取

网页抓取是指从网站自动提取数据的过程。它通过程序化方式获取网页并解析其内容，从而采集结构化信息。

网页数据

网页数据是指互联网上任何可公开访问的信息。它包括网站内容、社交媒体帖子、公开 API、政府记录，以及任何可通过网络协议获取的其他数据。

速

速率限制

速率限制是网站和 API 用来控制客户端在给定时间段内可发起请求数量的一种技术。它可防止服务器过载，并抵御滥用性抓取。

验

验证码破解