在大模型适配下游任务时,LoRA(Low-Rank Adaptation)和全参数微调(Full Fine-Tuning, FFT)代表了两种截然不同的参数更新策略,其核心差异体现在可训练参数量、计算资源消耗、存储成本和适用场景上。
全参数微调是最直接的方法:在目标任务数据上,对预训练模型的所有参数进行端到端更新。这种方式能最大程度激发模型潜力,在数据充足、任务复杂时通常取得最优性能。但其代价极高——不仅需要大量 GPU 显存来存储优化器状态和梯度(例如,7B 模型全微调需数百 GB 显存),而且每个任务都会产生一个完整大小的模型副本,导致存储和部署成本难以承受。因此,FFT 主要适用于资源充足、追求极致性能且任务数量有限的场景,如构建专用领域大模型或参与权威榜单评测。
LoRA 则通过低秩分解假设,仅训练少量新增参数。具体而言,在原始权重矩阵 的更新项 上施加低秩约束:,其中 和 是可学习的小矩阵(如秩为 8)。训练时冻结原模型所有参数,只更新 和 ;推理时将 与 合并,实现零延迟推理。LoRA 将可训练参数减少 100~1000 倍,显存占用大幅降低,且多个任务的适配器可共享同一底座模型,按需切换,极大节省存储空间。
正因如此,LoRA 特别适合以下场景:
- • 资源受限环境:如单卡或多卡消费级 GPU 上微调百亿参数模型;
- • 多任务/多租户系统:不同客户或业务线使用同一基础模型,各自加载专属 LoRA 适配器;
- • 快速迭代实验:频繁尝试不同数据或超参组合,无需重复加载大模型;
- • 开源模型社区:用户可共享轻量 LoRA 权重(几十 MB),而非完整模型(数十 GB)。
需要注意的是,LoRA 的性能通常略低于 FFT,尤其在数据量大、任务复杂时差距可能显现。但实践中,通过合理设置秩(rank)和目标模块(如仅适配注意力的 query/key/value 投影层),LoRA 往往能在极小性能损失下实现高效适配。此外,LoRA 还可与其他高效微调方法(如 Prefix Tuning、Adapter)结合,或作为 RLHF 阶段的参数更新策略,进一步扩展其应用边界。
总结来看,FFT 追求性能上限,LoRA 追求效率与灵活性。在大模型日益普及但资源依然昂贵的当下,LoRA 已成为工业界和研究社区事实上的标准微调范式,而 FFT 则退居为高预算、高要求场景的“黄金标准”。