什么是偏好优化

偏好优化(Preference Optimization)是大模型训练流程中”让模型更符合人类口味”的关键环节。

简单说,模型预训练完只是个”读过很多书但不懂人情世故”的书呆子,偏好优化就是教它:什么样的回答是人类喜欢的,什么样的是讨厌的。

传统做法是RLHF(基于人类反馈的强化学习),流程挺麻烦:先收集人类对多个回答的偏好排序,训练一个奖励模型,再用强化学习去优化大模型。效果不错,但训练不稳定、调参麻烦。

现在更流行的是DPO(直接偏好优化),它绕过了奖励模型强化学习,直接用偏好数据优化模型本身。数学上等价于RLHF,但实现简单、训练稳定,效果还更好。

除此之外还有ORPO、SimPO等变体,核心思路都是让模型”知道什么回答更讨喜”。

这步做不好,模型就算能力再强,回答也可能很”轴”或者不符合用户预期。

大模型偏好优化介绍
© 版权声明

相关文章

暂无评论

none
暂无评论...