微调
AI / MCP定义
微调是在特定数据集上对预训练语言模型进行进一步训练,以使其行为针对特定任务或领域专门化的过程。它将通用模型适配到有针对性的使用场景。
与 CrawlForge 的关联
微调需要大量高质量的领域专属文本数据集。从网络上采集这些数据是大规模网页抓取最常见的用途之一。训练数据的质量直接影响微调后模型的表现。
CrawlForge 的 batch_scrape 和 extract_content 正是为这一工作流而设计。使用 batch_scrape 并行处理数百个 URL,使用 extract_content 获取适合训练的干净结构化文本。这一流水线能够从文档站点、论坛、学术论文或任何网络来源构建数据集。
相关术语
大语言模型 (LLM)
大语言模型是一种在海量文本数据上训练的神经网络,能够理解并生成人类语言。LLM 为 AI 助手、代码生成器和自主智能体提供动力。
Token
token 是语言模型处理的基本文本单位。文本在被模型处理前会被切分为 token(每个 token 大约 4 个字符或 0.75 个单词)。token 数量决定了成本和上下文限制。
嵌入向量
嵌入向量是文本、图像或其他数据的稠密数值向量表示。它们以一种支持相似度搜索、聚类及其他机器学习操作的格式捕捉语义含义。
AI 智能体
AI 智能体是由大语言模型驱动的自主系统,能够对任务进行推理、做出决策,并通过使用工具来采取行动。智能体超越了简单的聊天机器人,能够规划并执行多步骤工作流。