文心5.1 – 百度发布的新一代基础大模型

AI最新项目2个月前发布文明旁观者

72 00

文心5.1百度发布的新一代基础大模型。文心5.1核心定位是“极致效价比的搜索与智能体专家”。文心5.1在完整继承上一代(文心5.0)知识储备的基础上，通过多维弹性预训练技术，将预训练成本大幅降至业界同规模模型的6%左右，同时在搜索、推理和智能体(Agent)能力上实现了全面跃升，登顶国内权威榜单。

文心5.1 - 百度发布的新一代基础大模型

文心5.1核心突破

文心5.1最大的技术亮点在于通过架构革新实现了“花小钱办大事”：

多维弹性预训练（降本 94%）：
百度创新性地提出了Once-for-All的弹性训练框架。简单来说，文心5.0在单次预训练中构建了覆盖多种参数规模的“子模型矩阵”，文心5.1直接从中提取了最优子结构。这使得它的总参数量压缩至约1/3，激活参数量压缩至约 1/2，最终将预训练算力成本降至业界同规模模型的 6%。
搜索能力国内登顶：
在权威的大模型竞技场（LMArena）搜索榜单中，文心5.1以1223分的成绩位列全球第四、国内第一，是目前唯一上榜的国产大模型，展现出极强的多源信息检索与整合能力。
智能体（Agent）能力突出：
在 τ³-bench 与SpreadsheetBench-Verified Agent 等评测任务中，文心5.1的性能超越了DeepSeek-V4-Pro，智能体能力已接近全球领先的闭源模型。

文心5.1关键能力与实测表现

文心5.1在推理、知识和创意写作方面均达到了顶尖水平，但在复杂的代码生成上仍有提升空间：

表格

能力维度	详细描述与表现
深度搜索	能够快速检索、整合多源信息，输出一致性更强、可靠性更高的回答，适合内容创作与企业知识管理。
逻辑推理	在数学竞赛评测 AIME26（使用工具）中得分 99.6，推理能力逼近全球头部闭源模型，仅次于 Gemini 3.1 Pro。
创意写作	在内部评测中，其创意写作能力接近 Gemini 3.1 Pro，能够生成有深度、有逻辑的长篇叙事和专业文本。
编程能力	在处理复杂游戏编程任务时（如生成单文件HTML游戏），生成的代码存在无法运行或界面Bug等问题，代码可运行性仍有明显短板。

文心5.1权威榜单排名（LMArena 搜索榜）

文心5.1在搜索能力上展现了极强的竞争力，以下是其在全球顶尖模型中的排名情况：

表格

排名	模型名称	得分
1	Claude Opus 4.6 Search	1255
2	GPT-5.5 Search	1242
3	Claude Opus 4.7	1236
4	ERNIE-5.1 (文心5.1)	1223
5	Claude Sonnet 4.6 Search	1221

文心5.1 - 百度发布的新一代基础大模型

文心5.1训练架构革新

除了预训练阶段的降本，文心5.1在后训练流程上也进行了同步革新：

分离式全异步强化学习：将训练、推理、奖励计算等环节完全解耦，各模块独立扩缩容，大幅提升了训练效率与稳定性。
多阶段强化学习管线：采用“统一监督微调 -> 领域专家并行训练 -> 在线策略蒸馏(OPD) -> 通用在线强化学习”的四步走策略，有效避免了多目标优化时的能力冲突。

文心5.1概括与体验方式

文心5.1是一款在搜索、智能体和推理能力上达到国际顶尖水平，同时极具成本优势的国产大模型。它非常适合对信息检索整合、复杂任务规划以及日常创意写作有高要求的用户和企业。

如何体验？

普通用户：可以直接登录文心一言官网或 App，与最新的文心5.1模型进行对话。
开发者：可以通过 百度千帆大模型平台 调用 API 服务（model_name 修改为 ernie-5.1），或在星河社区（AI Studio）的 Playground 中体验。

文心 5.1的项目地址

项目官网：https://yiyan.baidu.com/blog/posts/ernie-5.1-0508-release/

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

DeepSeek-V4 – 深度求索正式发布的新一代大模型系列预览版

DeepSeek-V4 – 深度求索正式发布的新一代大模型系列预览版

2个月前

0880

ZCube – 智谱联合清华大学开发的新型AI集群网络架构

ZCube – 智谱联合清华大学开发的新型AI集群网络架构

1个月前

0500

混元3D世界模型 2.0 – 腾讯混元3D世界模型2.0发布

混元3D世界模型 2.0 – 腾讯混元3D世界模型2.0发布

2个月前

0720

HyperFrames – HeyGen开源的面向AI智能体视频渲染框架

HyperFrames – HeyGen开源的面向AI智能体视频渲染框架

2个月前

0960

暂无评论

none

暂无评论...