指令微调 (Instruction Tuning):理解 RLHF 与模型对齐
📂 所属阶段:第五阶段 — 迈向大模型 (LLM) 的阶梯
🔗 相关章节:Prompt Engineering 基础 · 参数高效微调 (PEFT)
1. 为什么需要指令微调?
1.1 预训练模型的问题
1.2 指令微调流程
2. SFT(监督微调)
3. RLHF(人类反馈强化学习)
3.1 RLHF 三步曲
3.2 Reward Model
3.3 PPO 优化
4. DPO(直接偏好优化)
5. 对齐技术总结
6. 小结
💡 记住:指令微调让模型从"续写文本"变成"遵循指令",RLHF/DPO 让模型的回答更符合人类价值观。2026 年主流开源模型(如 LLaMA、Qwen)都经过了指令微调。
🔗 扩展阅读

