学习路线
机器学习->
深度学习->
强化学习->
深度强化学习
大模型演进分支
- 微调: SFT 监督学习
- 蒸馏:把大模型作为导师训练小模型
- RLHF:基于人类反馈的强化学习
PPO 近端策略优化
- 油门 - 重要性采样 权重 * 打分
- 刹车 - clip 修剪:防止变化的太快
- 老司机 - KL散度:起到一种正则化(提高泛化,防止过拟合)的作用,限制策略的变化幅度
R1的损失函数的核心逻辑
- 让新策略比就策略回答的更好,但又不能变化太快
- 通过裁剪机制防止更新幅度过大,保持训练稳定
- KL散度进一步控制新策略和某个参考策略间距离,防止模型乱跑
让模型更聪明地进化,提升推理能力,稳定训练过程
方向感?
场景?