Skip to content

微调与对齐(SFT / RLHF / DPO):从「会聊天」到「好用、可控」

一、背景

基座大模型预训练完,往往 特别能续写,但不一定 听话、安全、符合产品话术。实际产品里我们希望它:按格式输出 JSON拒答违规内容更像客服口吻更懂自家业务术语——这些很多时候靠 提示工程 能缓解一部分,但要 稳定、批量、全场景 地改行为,就会上 微调(Fine-tuning)人类偏好对齐

做过应用的同学可能听过 SFT(监督微调)RLHFDPO:它们解决的不是「会不会算下一个词」,而是 「下一个词该不该这么算」——把模型从「语言模仿机」往「符合人类意图的助手」推一把。理解这条线,读论文、选型训练方案、和算法同事对齐需求,都会轻松很多。

二、核心概念和核心原理(详细解答+通俗解释)

(一)核心概念(先通俗,再详细)

  • **1. SFT(Supervised Fine-Tuning)——「抄标准答案」**通俗解释:准备一堆「问题 → 理想回答」配对,像考试刷题,让模型在梯度更新里 多往这些答案靠。详细解答:数据质量决定上限;指令多样性(任务类型、语言、长度)要好;过拟合小数据会 忘掉通用能力,要控制轮数与正则。适合:固定格式、品牌话术、领域术语。

  • **2. RLHF(人类反馈强化学习)——「奖励函数塑形」**通俗解释:人类对多个回答打分/排序,再训练一个 奖励模型(RM) 近似人类偏好,然后用 强化学习 调策略(LLM),让高奖励回答概率上升。详细解答:流程长、训练不稳定、对工程要求高;OpenAI ChatGPT 早期路线让 RLHF 出圈。PPO 等算法在 LLM 上算力开销大,但能对 难以写清规则的「好/坏」 做优化。

  • **3. DPO(Direct Preference Optimization)——「跳过显式奖励模型」**通俗解释:直接用 偏好对(A 比 B 好) 更新模型,数学上把 RL 目标改写成更简单的损失,工程上 更省事。详细解答:近年开源社区很火;是否替代 RLHF 视场景——简单偏好、数据够 时 DPO 很香;极复杂安全策略有时仍要分层系统。

(二)核心原理(通俗拆解,一步一步讲清楚)

  1. **第一步:预训练给了「语言能力」,SFT 给了「任务形态」**通俗解释:预训练像读遍图书馆;SFT 像岗前培训——教它 怎么答这类工单。详细解答:SFT 实质是 条件语言建模,损失仍是预测下一个 token,但数据分布从「互联网语料」换到「指令-回答」。

  2. 第二步:RLHF 把「对错」从人类标注迁到可优化信号通俗解释:人不可能对每个生成步骤打分,就用 RM 近似人的判断,再让策略网络去 刷高 RM 分。详细解答:常见问题是 奖励黑客——模型钻空子刷分但人类觉得差,需要迭代 RM 与约束。

  3. 第三步:对齐不是一劳永逸通俗解释:产品改话术、政策变严,要 持续补数据、轻量再训或 RAG 补丁。详细解答:线上 红队、评测集 要跟着迭代;对齐与 推理成本 也要平衡(模型越大越难训)。

三、补充进阶知识点(易懂不晦涩,适配新手进阶)

  • 1. 什么时候优先 SFT,什么时候上偏好学习通俗解释:格式、工具调用样例、领域 QA——SFT 往往够用;「哪种语气更好」这类 细粒度偏好——再上 DPO/RLHF。简单补充:很多团队 SFT +强提示 + RAG 已能上线 MVP。

  • 2. LoRA / QLoRA——没钱全参微调怎么办通俗解释:只训少量低秩适配矩阵,显存友好,效果常够用。简单补充:与 量化 文章呼应——QLoRA 在 4bit 基底上训 LoRA,个人卡也能玩。

  • 3. 与系统安全的边界通俗解释:对齐 减少 胡来,不能替代 输入过滤、输出审核、权限控制。简单补充:多层防护 是产品级标配。

  • 4. 和之前知识点的关联SFT 数据里的长文受 上下文窗口 限制;RAG 减轻「全塞进权重」的压力;MCP/工具 侧能力可配合 SFT 教模型 何时调用

四、文章知识总结

  1. 背景:预训练会写,不一定好用;微调与对齐把模型 拉向产品与价值观
  2. 核心概念:SFT 模仿示范;RLHF 用奖励模型 + RL;DPO 直接用偏好对优化。
  3. 核心原理:都是动参数(或 LoRA 子参数),改变输出分布;要防过拟合与奖励黑客。
  4. 进阶:小团队 LoRA/QLoRA;对齐 + 系统工程缺一不可。
  5. 核心逻辑先想清楚「行为能不能用数据描述」——能就用 SFT,难描述再考虑偏好学习。

总结:微调对齐是 「把通用模型变成你的产品模型」 的主干道之一;和提示、RAG、工具配合,才是完整交付,而不是指望一次训练解决所有问题。