偏好优化(Preference Optimization)是大模型训练流程中”让模型更符合人类口味”的关键环节。
简单说,模型预训练完只是个”读过很多书但不懂人情世故”的书呆子,偏好优化就是教它:什么样的回答是人类喜欢的,什么样的是讨厌的。
传统做法是RLHF(基于人类反馈的强化学习),流程挺麻烦:先收集人类对多个回答的偏好排序,训练一个奖励模型,再用强化学习去优化大模型。效果不错,但训练不稳定、调参麻烦。
现在更流行的是DPO(直接偏好优化),它绕过了奖励模型和强化学习,直接用偏好数据优化模型本身。数学上等价于RLHF,但实现简单、训练稳定,效果还更好。
除此之外还有ORPO、SimPO等变体,核心思路都是让模型”知道什么回答更讨喜”。
这步做不好,模型就算能力再强,回答也可能很”轴”或者不符合用户预期。

© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



