大语言模型的完整训练流程通常分为三个核心阶段:预训练(Pretraining)、监督微调(Supervised Fine-Tuning, SFT)和对齐优化(Alignment Tuning,如 RLHF 或 DPO)。这三个阶段依次递进,目标明确,共同将一个原始神经网络转化为具备强大能力且行为可控的智能体。
第一阶段是预训练。该阶段使用海量无标注文本(如网页、书籍、代码等),通过自回归语言建模任务(例如“预测下一个词”)进行训练。模型在此过程中学习语言的统计规律、世界知识、逻辑结构和上下文关联能力。这一阶段计算开销最大,通常占整个训练成本的90%以上,产出的是一个“基础模型”。它知识广博、生成流畅,但行为不可控——可能胡言乱语、拒绝合理请求,或无法遵循指令。
第二阶段是监督微调(SFT)。在预训练模型的基础上,使用少量高质量的人工标注数据进行有监督训练。这些数据通常以“指令-理想响应”对的形式组织,例如“总结以下文章”对应一个简洁准确的摘要。SFT 的目标不是增加知识,而是教会模型理解并执行人类意图,使其从“被动续写”转变为“主动完成任务”。此阶段显著提升模型的指令遵循能力,是实现可用性的关键一步。
第三阶段是对齐优化,旨在进一步提升模型的安全性、有用性和与人类价值观的一致性。早期方法采用基于人类反馈的强化学习(RLHF):先训练一个奖励模型来拟合人类对不同回答的偏好,再用该奖励模型通过 PPO 等算法优化语言模型。近年来,直接偏好优化(DPO)等无需显式奖励模型的方法因其训练更稳定、实现更简单而逐渐流行。这一阶段不关注知识或基本能力,而是精细调整模型在模糊、敏感或复杂场景下的行为选择,例如学会拒答有害问题、避免幻觉、保持诚实等。
需要强调的是,这三个阶段并非孤立,而是层层依赖:预训练提供能力底座,SFT 建立任务意识,对齐优化塑造行为品格。缺少任一环节,模型都难以在真实场景中可靠使用。此外,在实际工程中,还可能包含中间步骤,如继续预训练(Continued Pretraining)以注入领域知识,或多轮 SFT 与对齐交替迭代。但上述三阶段构成了当前大模型训练的标准范式。