Ornith-1.0 – 为智能体编程任务而设计的开源大语言模型

Ornith-1.0 是 DeepReinforce 团队推出的一个开源大语言模型系列，专为智能体编程任务而设计。创新在于一个自我改进的训练框架，使模型能够自主学习并优化指导其解决问题的“脚手架”（Scaffold），从而在各类编程基准测试中实现了开源模型中的顶尖性能。

自我改进能力：Ornith-1.0 的核心特点是其自我改进的训练策略。模型不仅学习如何解决问题，还学习如何生成和优化指导其解决问题的“脚手架”（Scaffold），形成一个持续优化的闭环。
全尺寸模型系列：提供从适合边缘设备部署的 9B 稠密模型，到追求极致性能的 397B 混合专家模型，覆盖了 9B-Dense、31B-Dense、35B-MoE 和 397B-MoE 四种不同规格。
顶尖的编程性能：在多项智能体编程基准测试中，Ornith-1.0 的性能超越了同等规模的开源模型，其旗舰模型 Ornith-1.0-397B 的表现甚至能与 Claude Opus 4.7 等顶尖闭源模型相媲美。

Ornith-1.0 的核心是其自我改进训练框架，该框架通过强化学习（RL）实现。

联合优化：在训练的每一步，模型会执行两个阶段的任务。首先，根据给定的任务和之前使用的脚手架，模型会提出一个改进后的新脚手架。然后，基于这个新脚手架和任务描述，模型生成解决方案。
奖励反馈：解决方案执行后获得的奖励会同时反馈给“脚手架生成”和“解决方案生成”两个阶段。这使得模型不仅被优化以产生更好的答案，还被优化以设计出能引出更好答案的“脚手架”。
防止奖励黑客攻击：为防止模型通过作弊（如直接读取测试文件答案）来获取奖励，该框架采用了三层防御机制：
- 固定外部边界：环境、工具接口和测试隔离是不可变的，模型只能优化其内部策略。
- 确定性监控：一个监控程序会强制执行边界，任何越界行为（如读取被隐藏的路径）都会导致奖励为零。
- LLM 法官否决：一个冻结的 LLM 法官会作为验证器之上的最终否决机制，防止模型在允许的工具范围内进行意图层面的“游戏”。
异步强化学习：为解决长流程任务中的离线策略问题，采用了流水线强化学习策略，并对较早生成的、可能已过时的 token 进行降权处理，以确保训练稳定性。

Ornith-1.0 的主要功能体现在其强大的智能体编程能力上，能够自主完成复杂的软件开发任务。

终端任务执行：在 Terminal-Bench 2.1 基准测试中，Ornith-1.0-397B 取得了 77.5 的高分，展现了其理解和执行复杂终端命令的能力。
软件工程任务解决：在 SWE-Bench Verified 基准测试中，Ornith-1.0-397B 获得了 82.4 分，证明其能够有效定位并修复真实世界软件仓库中的 bug。
多语言编程支持：在 SWE-Bench Multilingual 测试中表现优异，表明其具备处理多种编程语言的软件工程任务的能力。
资源高效部署：即使是 9B 参数量的 Ornith-1.0-9B 模型，其性能也能匹配甚至超越 Gemma 4-31B 等大得多的模型，使其非常适合在资源受限的边缘设备上部署。