当前位置：首页>面试题库>算法面试题库:lora与Fft

算法面试题库:lora与Fft

2026-04-03 03:57:23

在大模型适配下游任务时，LoRA（Low-Rank Adaptation）和全参数微调（Full Fine-Tuning, FFT）代表了两种截然不同的参数更新策略，其核心差异体现在可训练参数量、计算资源消耗、存储成本和适用场景上。

全参数微调是最直接的方法：在目标任务数据上，对预训练模型的所有参数进行端到端更新。这种方式能最大程度激发模型潜力，在数据充足、任务复杂时通常取得最优性能。但其代价极高——不仅需要大量 GPU 显存来存储优化器状态和梯度（例如，7B 模型全微调需数百 GB 显存），而且每个任务都会产生一个完整大小的模型副本，导致存储和部署成本难以承受。因此，FFT 主要适用于资源充足、追求极致性能且任务数量有限的场景，如构建专用领域大模型或参与权威榜单评测。

LoRA 则通过低秩分解假设，仅训练少量新增参数。具体而言，在原始权重矩阵的更新项上施加低秩约束：，其中和是可学习的小矩阵（如秩为 8）。训练时冻结原模型所有参数，只更新和；推理时将与合并，实现零延迟推理。LoRA 将可训练参数减少 100~1000 倍，显存占用大幅降低，且多个任务的适配器可共享同一底座模型，按需切换，极大节省存储空间。

正因如此，LoRA 特别适合以下场景：

• 资源受限环境：如单卡或多卡消费级 GPU 上微调百亿参数模型；
• 多任务/多租户系统：不同客户或业务线使用同一基础模型，各自加载专属 LoRA 适配器；
• 快速迭代实验：频繁尝试不同数据或超参组合，无需重复加载大模型；
• 开源模型社区：用户可共享轻量 LoRA 权重（几十 MB），而非完整模型（数十 GB）。

需要注意的是，LoRA 的性能通常略低于 FFT，尤其在数据量大、任务复杂时差距可能显现。但实践中，通过合理设置秩（rank）和目标模块（如仅适配注意力的 query/key/value 投影层），LoRA 往往能在极小性能损失下实现高效适配。此外，LoRA 还可与其他高效微调方法（如 Prefix Tuning、Adapter）结合，或作为 RLHF 阶段的参数更新策略，进一步扩展其应用边界。

总结来看，FFT 追求性能上限，LoRA 追求效率与灵活性。在大模型日益普及但资源依然昂贵的当下，LoRA 已成为工业界和研究社区事实上的标准微调范式，而 FFT 则退居为高预算、高要求场景的“黄金标准”。

本文来自网友投稿或网络内容，如有侵犯您的权益请联系我们删除，联系邮箱：wyl860211@qq.com 。

算法面试题库:lora与Fft

最新文章

热门文章

随机文章

算法面试题库:lora与Fft

算法面试题库:大模型除了微调,还有哪些优化方案

算法面试题库:RLHF工程实现

最新文章

热门文章

随机文章