大模型训练方案综述

本文以清晰直白的方式,系统梳理了大语言模型(LLM)从基础训练到最终对齐的完整技术流程,核心围绕预训练、微调、参数高效微调、偏好对齐四大关键阶段展开,逐一拆解各类技术的定义、核心逻辑与差异。


  • 预训练:Pre-Training,无监督学习,只有text列;还有个CPT继续预训练,用于继续吸收领域知识
  • 微调:Fine-Tuning,一般情况下LLM微调都是监督微调SFT(Supervised fine-tuning)中的指令微调(指令微调是监督微调中的一种),非指令微调基本很少见了
  • 全参微调:Full-Parameter Fine-Tuning,微调全部参数
  • 参数高效微调(PEFT):Parameter-efficient-Fine-tuning,只微调部分参数
  • LoRA:Low-Rank Adaptation,低秩矩阵分解;​核心思想是:大模型权重在适应新任务时,其矩阵的变化是低秩的,所以理论上无需更新全部权重​。即可以把权重W分解为 W0 + AB,其中W0和W的形状一样, A和B是两个低维矩阵,相乘后形状和W相同但是秩低很多,调参就调A和B;调完毕后,推理前再把AB和W0合并即可,不会增加额外开销
  • QLoRA:Quantized LoRA,量化LoRA,将预训练模型的权重从标准的16位浮点数(FP16/BF16)量化到4位整数,从而将模型基础权重的显存占用压缩到原来的1/4
  • 偏好对齐
  • ReFT:Reinforced Fine-Tuning,强化微调,也叫RFT,最基础的,自动算法评估
  • 组成: ReFT = SFT + PPO
  • 过程在 SFT 的基础上,使用 PPO 进行强化学习
  • 评估方式:通常通过 自动化程序 对模型输出进行评估,奖励信号来自程序的评价
  • RLHF:Reinforcement Learning from Human Feedback,人类评估
  • RLHF = SFT + PPO (近端策略优化)+ 人类反馈
  • 过程在 SFT 的基础上,使用 PPO 进行强化学习,奖励信号来自 人类反馈
  • 评估方式:人类对模型输出进行评价,或者使用基于人类反馈训练的 奖励模型 来评估。
  • RLAIF:在人类反馈的强化学习基础上,改成了AI评估
  • ​直接偏好优化​:DPO(Direct Preference Optimization),目前最主流
  • 原理:传统 RLHF 需要三步:收集偏好数据→训练奖励模型(RM)→用强化学习(如 PPO)优化模型,步骤复杂且训练不稳定,DPO跳过奖励模型和强化学习环节,直接通过 “人类偏好的优质回答” 和 “不偏好的劣质回答” 对比,构造损失函数来微调模型,让模型更倾向于生成优质回答。
  • 优点:实现简单、训练稳定、效果接近 RLHF,因此成为当前偏好对齐的主流方法之一
[
{
"instruction": "人类指令(必填)",
"input": "人类输入(选填)",
"chosen": "优质回答(必填)",
"rejected": "劣质回答(必填)"
}
]


  • 训练后量化:PTQ(Post-Training Quantization),在模型完成训练后进行,无需重新训练或微调。它速度快、成本低,但精度损失风险相对较高。PTQ 通常需要一个小的校准数据集来统计分析值的分布范围
  • 量化感知训练:QAT(Quantization-Aware Training),在模型训练(或微调)过程中引入模拟量化操作,让模型提前学习并适应低精度表示带来的噪声。QAT 通常能获得比 PTQ 更高的精度,但计算成本和训练时间也更高