FIPO – 阿里巴巴通义最新发布的大模型强化学习算法

FIPO是阿里巴巴通义实验室(Qwen Team)最新发布的大模型强化学习算法。

它的全称是Future-KL Influenced Policy Optimization(未来KL散度影响策略优化)。这项技术主要解决的是大模型在“长推理”过程中容易变笨、逻辑混乱或推理停滞的问题。

FIPO - 阿里巴巴通义最新发布的大模型强化学习算法

1. 它是做什么的?

FIPO是一种用于后训练(Post-training)阶段的强化学习算法。
  • 解决的问题:传统的强化学习(如 GRPO)在给模型“发奖金”时比较粗糙,只要最终答案对了,就把奖励平均分给推理过程中的每一步。这导致模型分不清哪些步骤是关键逻辑,哪些是废话,甚至会出现“自我误导”(Oops Moment)——即算出正确答案后,又自己把自己带偏。
  • 核心创新:FIPO 引入了 Future-KL 机制。它能计算出每一个 Token(词元)对后续推理轨迹的影响力。
    • 如果某个步骤对后续的正确推理有正向影响,就给予高权重奖励。
    • 如果某个步骤导致了后续的跑偏,就进行抑制。
    • 简单说,它实现了Token 级别的精准信用分配,让模型知道哪一步是“神来之笔”,哪一步是“画蛇添足”。

2. 核心能力与数据表现

根据通义实验室在Qwen2.5-32B-Base 模型上的测试结果,FIPO 展现了惊人的效果:
表格

指标传统算法 (如 DAPO/GRPO)FIPO 算法提升效果
平均推理长度约 4,000 Tokens> 10,000 Tokens推理深度大幅提升,能处理更复杂的难题
数学准确率50.0% (AIME 2024)58.0%在纯强化学习设置下超越 o1-mini 等同规模模型
关键发现难以识别关键逻辑点识别“稀疏但关键”Token仅调整约 2% 的关键 Token 即可恢复模型性能

3. 为什么它很重要?

  • 打破“推理长度停滞”:以前模型想变聪明,往往需要堆砌更长的推理链,但很容易在中间“迷路”。FIPO让模型能维持更长、更稳定的逻辑链条。
  • 开源贡献:通义团队已经开源了相关的论文、代码和模型。这意味着开发者可以利用FIPO算法,在不依赖海量长推理数据的情况下,训练出具备深度思考能力的模型。
  • 减少“自我误导”:统计显示,模型出现“顿悟时刻”(Aha Moment)的概率仅约 1%,而出现“自我误导”(Oops Moment)的概率约 3%。FIPO 通过精准奖励机制,有效降低了这种自我否定的情况。

FIPO的项目地址

FIPO的同类竞品对比

对比维度FIPODAPOGRPO
核心机制Future-KL自举估计非对称裁剪+动态采样组相对优势+KL惩罚
信用分配Token级精准(识别2%关键Token)轨迹级平均(所有Token同等奖励)轨迹级平均(所有Token同等奖励)
冷启动数据不需要长CoT数据不需要长CoT数据不需要长CoT数据
推理长度10k+ Token(持续增长)~4k Token(停滞瓶颈)~4k Token(停滞瓶颈)
AIME 2024(32B)58%(峰值)50%~47%
vs o1-mini超越(56%)未超越未超越
优势估计方式Future-KL影响力权重统一组优势统一组优势
训练稳定性三重防护(防梯度爆炸)标准动态采样易出现熵崩溃
© 版权声明

相关文章

暂无评论

none
暂无评论...