算法面试题库 | 大模型注入领域知识大模型在通用语料上预训练后,虽具备广泛的语言和常识能力,但在特定领域(如医疗、金融、法律或工业)往往缺乏深度专业知识。为使其在垂直场景中可靠应用,需通过多种技术路径
算法面试题库:RLHF工程实现RLHF(Reinforcement Learning from Human Feedback)的工程实现是一个多阶段、高耦合的系统工程,涉及数据采集、奖励建模、策略优化
算法面试题库:lora与Fft在大模型适配下游任务时,LoRA(Low-Rank Adaptation)和全参数微调(Full Fine-Tuning, FFT)代表了两种截然不同的参数更新策略,其核
算法面试题库:大模型除了微调,还有哪些优化方案大模型在预训练完成后,若仅依赖原始参数直接使用,往往难以满足实际应用对准确性、安全性、效率和领域适配性的要求。虽然微调(包括监督微调 SFT 和强化学习对
算法面试题库 | 介绍loraLoRA(Low-Rank Adaptation)是一种高效微调大语言模型的技术,其核心思想是:在冻结原始预训练权重的前提下,通过低秩矩阵分解的方式学习权重的增量更新。这
算法面试题库 | sft数据的多样性在大语言模型的监督微调(Supervised Fine-Tuning, SFT)阶段,数据的多样性并非指样本数量多,而是指任务类型、指令形式、领域覆盖、语言风格和难
算法面试题库 | 预训练与sft预训练(Pretraining)和监督微调(Supervised Fine-Tuning, SFT)是大语言模型开发中两个核心但目标迥异的阶段。它们在数据形式、优化目标
算法面试题库 | kv cacheKV Cache(Key-Value Cache)是自回归语言模型在推理阶段用于加速生成的核心优化技术。其本质是缓存历史 token 的 Key 和 Value 向量
算法面试题库:预训练和SFT的关系在当前大语言模型的开发范式中,预训练(Pretraining)与监督微调(Supervised Fine-Tuning, SFT)构成了从“通用语言能力”到“可控任务
算法面试题库:SFT和RL谁更能提升推理能力在大模型对齐与能力优化的流程中,监督微调(SFT)和强化学习(RL,如 RLHF 或 DPO)常被用于提升模型性能,但二者对“推理能力”的影响机制和效果存在