大模型训练方案综述

admin
大模型
1小时前
5热度
0评论

本文以清晰直白的方式，系统梳理了大语言模型（LLM）从基础训练到最终对齐的完整技术流程，核心围绕预训练、微调、参数高效微调、偏好对齐四大关键阶段展开，逐一拆解各类技术的定义、核心逻辑与差异。

预训练：Pre-Training，无监督学习，只有text列；还有个CPT继续预训练，用于继续吸收领域知识
微调：Fine-Tuning，一般情况下LLM微调都是监督微调SFT（Supervised fine-tuning）中的指令微调（指令微调是监督微调中的一种），非指令微调基本很少见了
全参微调：Full-Parameter Fine-Tuning，微调全部参数
参数高效微调(PEFT)：Parameter-efficient-Fine-tuning，只微调部分参数
LoRA：Low-Rank Adaptation，低秩矩阵分解；核心思想是：大模型权重在适应新任务时，其矩阵的变化是低秩的，所以理论上无需更新全部权重。即可以把权重W分解为 W0 + AB，其中W0和W的形状一样， A和B是两个低维矩阵，相乘后形状和W相同但是秩低很多，调参就调A和B；调完毕后，推理前再把AB和W0合并即可，不会增加额外开销
QLoRA：Quantized LoRA，量化LoRA，将预训练模型的权重从标准的16位浮点数（FP16/BF16）量化到4位整数，从而将模型基础权重的显存占用压缩到原来的1/4
偏好对齐
ReFT：Reinforced Fine-Tuning，强化微调，也叫RFT，最基础的，自动算法评估
组成： ReFT = SFT + PPO
过程在 SFT 的基础上，使用 PPO 进行强化学习
评估方式：通常通过自动化程序对模型输出进行评估，奖励信号来自程序的评价
RLHF：Reinforcement Learning from Human Feedback，人类评估
RLHF = SFT + PPO （近端策略优化）+ 人类反馈
过程在 SFT 的基础上，使用 PPO 进行强化学习，奖励信号来自人类反馈
评估方式：人类对模型输出进行评价，或者使用基于人类反馈训练的奖励模型来评估。
RLAIF：在人类反馈的强化学习基础上，改成了AI评估
直接偏好优化：DPO（Direct Preference Optimization），目前最主流
原理：传统 RLHF 需要三步：收集偏好数据→训练奖励模型（RM）→用强化学习（如 PPO）优化模型，步骤复杂且训练不稳定，DPO跳过奖励模型和强化学习环节，直接通过 “人类偏好的优质回答” 和 “不偏好的劣质回答” 对比，构造损失函数来微调模型，让模型更倾向于生成优质回答。
优点：实现简单、训练稳定、效果接近 RLHF，因此成为当前偏好对齐的主流方法之一

[
  {
    "instruction": "人类指令（必填）",
    "input": "人类输入（选填）",
    "chosen": "优质回答（必填）",
    "rejected": "劣质回答（必填）"
  }
]

训练后量化：PTQ（Post-Training Quantization），在模型完成训练后进行，无需重新训练或微调。它速度快、成本低，但精度损失风险相对较高。PTQ 通常需要一个小的校准数据集来统计分析值的分布范围
量化感知训练：QAT（Quantization-Aware Training），在模型训练（或微调）过程中引入模拟量化操作，让模型提前学习并适应低精度表示带来的噪声。QAT 通常能获得比 PTQ 更高的精度，但计算成本和训练时间也更高