在大模型对齐与能力优化的流程中,监督微调(SFT)和强化学习(RL,如 RLHF 或 DPO)常被用于提升模型性能,但二者对“推理能力”的影响机制和效果存在本质差异。
SFT 通过高质量的人工标注数据(如思维链 Chain-of-Thought 示例)直接教会模型如何分步推理。例如,提供“问题 → 分析步骤 → 最终答案”的完整样本,模型在训练中学习模仿这种结构化输出。这种方式能有效激发预训练阶段已有的潜在推理能力,尤其当 SFT 数据覆盖多样化的推理模式(数学、逻辑、多跳问答等)时,模型可泛化出较强的显式推理行为。其优势在于目标明确、训练稳定、可解释性强,是当前提升推理能力最直接且高效的方法。
相比之下,RL(包括基于人类偏好的 PPO 或无奖励模型的 DPO)并不直接教模型“如何推理”,而是通过偏好信号间接引导:例如,人类标注者认为“包含中间步骤的回答”优于“直接给出答案”,RL 便鼓励模型生成前者。然而,RL 本身不提供推理路径的构造方法,仅对最终输出进行排序或打分。若 SFT 阶段未充分暴露推理结构,RL 很难凭空催生复杂推理能力;它更擅长优化已有行为的风格、安全性或一致性,而非从零构建推理机制。
实证研究表明,在数学、代码等强推理任务上,高质量 SFT(尤其是含 CoT 的数据)带来的提升远大于 RL。RL 的主要价值在于:当 SFT 模型已具备基础推理能力后,进一步筛选更清晰、更可靠、更符合人类偏好的推理路径,抑制幻觉或跳跃性结论。换言之,SFT 是“授人以渔”,RL 是“择优而用”。
此外,RL 训练过程不稳定、超参敏感、评估困难,且依赖大量偏好数据。若偏好标注质量不高(如无法区分推理正确性,仅关注语言流畅度),RL 甚至可能削弱推理能力,导致模型学会“用漂亮话掩盖错误逻辑”。
在提升推理能力的目标下,SFT 是基础性和决定性的手段,RL 是辅助性和精细化的补充。理想流程应是:先通过丰富、结构化的 SFT 数据充分激发模型的推理潜力,再用 RL 对输出质量进行微调。脱离 SFT 而单独依赖 RL,难以实质性提升模型的底层推理能力。