大模型训练方案综述
- 大模型
- 1小时前
- 5热度
- 0评论
本文以清晰直白的方式,系统梳理了大语言模型(LLM)从基础训练到最终对齐的完整技术流程,核心围绕预训练、微调、参数高效微调、偏好对齐四大关键阶段展开,逐一拆解各类技术的定义、核心逻辑与差异。
- 预训练:Pre-Training,无监督学习,只有text列;还有个CPT继续预训练,用于继续吸收领域知识
- 微调:Fine-Tuning,一般情况下LLM微调都是监督微调SFT(Supervised fine-tuning)中的指令微调(指令微调是监督微调中的一种),非指令微调基本很少见了
- 全参微调:Full-Parameter Fine-Tuning,微调全部参数
- 参数高效微调(PEFT):Parameter-efficient-Fine-tuning,只微调部分参数
- LoRA:Low-Rank Adaptation,低秩矩阵分解;核心思想是:大模型权重在适应新任务时,其矩阵的变化是低秩的,所以理论上无需更新全部权重。即可以把权重W分解为 W0 + AB,其中W0和W的形状一样, A和B是两个低维矩阵,相乘后形状和W相同但是秩低很多,调参就调A和B;调完毕后,推理前再把AB和W0合并即可,不会增加额外开销
- QLoRA:Quantized LoRA,量化LoRA,将预训练模型的权重从标准的16位浮点数(FP16/BF16)量化到4位整数,从而将模型基础权重的显存占用压缩到原来的1/4
- 偏好对齐
- ReFT:Reinforced Fine-Tuning,强化微调,也叫RFT,最基础的,自动算法评估
- 组成: ReFT = SFT + PPO
- 过程在 SFT 的基础上,使用 PPO 进行强化学习
- 评估方式:通常通过 自动化程序 对模型输出进行评估,奖励信号来自程序的评价
- RLHF:Reinforcement Learning from Human Feedback,人类评估
- RLHF = SFT + PPO (近端策略优化)+ 人类反馈
- 过程在 SFT 的基础上,使用 PPO 进行强化学习,奖励信号来自 人类反馈
- 评估方式:人类对模型输出进行评价,或者使用基于人类反馈训练的 奖励模型 来评估。
- RLAIF:在人类反馈的强化学习基础上,改成了AI评估
- 直接偏好优化:DPO(Direct Preference Optimization),目前最主流
- 原理:传统 RLHF 需要三步:收集偏好数据→训练奖励模型(RM)→用强化学习(如 PPO)优化模型,步骤复杂且训练不稳定,DPO跳过奖励模型和强化学习环节,直接通过 “人类偏好的优质回答” 和 “不偏好的劣质回答” 对比,构造损失函数来微调模型,让模型更倾向于生成优质回答。
- 优点:实现简单、训练稳定、效果接近 RLHF,因此成为当前偏好对齐的主流方法之一
[
{
"instruction": "人类指令(必填)",
"input": "人类输入(选填)",
"chosen": "优质回答(必填)",
"rejected": "劣质回答(必填)"
}
]
- 训练后量化:PTQ(Post-Training Quantization),在模型完成训练后进行,无需重新训练或微调。它速度快、成本低,但精度损失风险相对较高。PTQ 通常需要一个小的校准数据集来统计分析值的分布范围
- 量化感知训练:QAT(Quantization-Aware Training),在模型训练(或微调)过程中引入模拟量化操作,让模型提前学习并适应低精度表示带来的噪声。QAT 通常能获得比 PTQ 更高的精度,但计算成本和训练时间也更高
