在大模型对齐与优化的流程中,微调(通常指监督微调,SFT)和强化学习(如 RLHF)是两个关键但目标迥异的技术手段。它们共同服务于提升模型性能,但在训练信号来源、优化目标和行为影响上存在本质区别。
微调的核心目的是教会模型如何完成特定任务。它依赖高质量的人工标注数据,形式通常为“指令-理想响应”对。例如,“将以下英文翻译成中文”对应一个准确流畅的译文。通过最小化模型输出与标准答案之间的差异(如交叉熵损失),微调直接引导模型学习人类期望的输出格式、内容结构和任务逻辑。这一过程类似于“示范教学”:老师给出正确解法,学生模仿并内化。微调能有效激发预训练模型中已有的知识,使其具备基本的指令遵循能力,且训练过程稳定、可复现、易于调试。
强化学习(以 RLHF 为代表)的目的则不同:它不提供“正确答案”,而是通过相对偏好信号来优化模型行为。具体而言,人类标注者对同一指令下的多个模型回复进行排序(如 A 比 B 更好),系统据此训练一个奖励模型,再用该奖励模型通过策略梯度方法(如 PPO)更新语言模型。强化学习关注的是“哪个回答更符合人类偏好”,而非“如何构造回答”。因此,它擅长优化那些难以用绝对标准衡量的软性指标,如回答的有用性、安全性、自然度或一致性,但无法直接教授新技能或复杂推理步骤。
二者的关键区别体现在几个方面:
- • 训练信号性质:微调使用绝对、精确的监督信号;强化学习使用相对、模糊的偏好信号。
- • 能力提升方式:微调扩展模型的“行为 repertoire”(能做什么);强化学习筛选和强化已有行为中的“优质样本”(愿意怎么做)。
- • 数据效率与稳定性:微调所需数据量小、训练收敛快;强化学习依赖大量偏好对,训练过程易震荡,超参敏感。
- • 错误传播风险:微调若标注错误,模型会直接学习错误模式;强化学习若偏好判断有偏,可能放大不合理行为(如过度冗长或回避问题)。
实践中,微调是基础,强化学习是精修。没有微调,模型缺乏基本任务能力,强化学习无从优化;仅有微调,模型可能生成看似合理但存在幻觉、不安全或不符合用户隐含期望的内容。因此,典型流程是先通过 SFT 建立可靠的任务执行能力,再用强化学习进行行为对齐和风格打磨。近年来兴起的 DPO 等方法虽简化了强化学习流程,但其目标仍属于偏好对齐范畴,与微调的“教学式”目标保持互补关系。