在大模型对齐流程中,监督微调(SFT)之后引入基于PPO(Proximal Policy Optimization)的强化学习阶段,并非为了提升模型的基础能力,而是为了解决SFT无法覆盖的行为偏好、安全性和输出质量精细化控制问题。
SFT通过“指令-理想回答”对教会模型基本任务执行能力,例如回答问题、写代码或总结文本。然而,人类对“好回答”的判断往往是多维度且难以用单一标准答案刻画的:一个回答可能事实正确但语气生硬,逻辑清晰但过于冗长,或者安全但回避了核心问题。这些软性指标无法通过SFT的交叉熵损失有效优化,因为SFT只惩罚与标注答案的差异,而不评估回答的整体质量。
PPO的作用正是引入人类偏好信号来引导模型生成更符合人类价值观的输出。具体而言,先由SFT模型生成多个候选回答,人工标注者对它们进行排序(如A比B更好),据此训练一个奖励模型(Reward Model)。随后,PPO利用该奖励模型作为反馈信号,通过策略梯度方法微调语言模型,使其更倾向于生成高奖励的回答。同时,PPO通过KL散度约束,防止策略过度偏离原始SFT模型,避免模型“钻空子”(如学会生成简短无害但无用的套话)。
因此,SFT提供“能做什么”的基础能力,PPO则优化“愿意怎么做”的行为风格。没有PPO(或类似对齐机制),模型可能在技术上正确,但在实际交互中显得不 helpful、不 honest 或不 harmless。例如,它可能如实回答敏感问题而缺乏安全过滤,或因过度追求准确而产生冗长幻觉。
PPO并非唯一选择。近年来DPO等方法通过直接利用偏好数据构造监督目标,绕过了奖励模型和强化学习的复杂训练,实现了更稳定高效的对齐。但PPO作为RLHF的核心组件,其设计思想——用人类偏好指导行为优化——仍是理解大模型对齐机制的关键。SFT加PPO的组合,本质上是从“模仿示范”走向“基于反馈的持续改进”,使模型从可用走向可靠。