什么是偏好优化

AI知识探索库17小时前更新文明旁观者

偏好优化(Preference Optimization)是大模型训练流程中”让模型更符合人类口味”的关键环节。

简单说，模型预训练完只是个”读过很多书但不懂人情世故”的书呆子，偏好优化就是教它：什么样的回答是人类喜欢的，什么样的是讨厌的。

传统做法是RLHF(基于人类反馈的强化学习)，流程挺麻烦：先收集人类对多个回答的偏好排序，训练一个奖励模型，再用强化学习去优化大模型。效果不错，但训练不稳定、调参麻烦。

现在更流行的是DPO(直接偏好优化)，它绕过了奖励模型和强化学习，直接用偏好数据优化模型本身。数学上等价于RLHF，但实现简单、训练稳定，效果还更好。

除此之外还有ORPO、SimPO等变体，核心思路都是让模型”知道什么回答更讨喜”。

这步做不好，模型就算能力再强，回答也可能很”轴”或者不符合用户预期。

大模型偏好优化介绍

AI知识探索库

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

Anthropic一文读懂这家全球顶级AI大模型公司

Anthropic一文读懂这家全球顶级AI大模型公司

AI知识探索库

2个月前

0400

工具调用是什么意思

工具调用是什么意思

AI知识探索库

2周前

0180

千问和豆包,deepseek哪个好国产AI大模型对比

千问和豆包,deepseek哪个好国产AI大模型对比

AI知识探索库

3周前

0270

大模型编码器的作用

大模型编码器的作用

AI知识探索库

3周前

0320

暂无评论

none

暂无评论...