MiMo-V2.5 – 小米于正式开源的原生全模态大模型

MiMo-V2.5是小米于正式开源的原生全模态大模型。与专注于复杂推理的Pro版本不同,MiMo-V2.5主打全能感知与高性价比,能够像人类一样同时“看、听、读”,并迅速做出反应。它被视为覆盖绝大多数通用智能体(Agent)场景的主力模型。

MiMo-V2.5 - 小米于正式开源的原生全模态大模型

MiMo-V2.5核心定位

MiMo-V2.5不仅仅是“能看图”的语言模型,而是从底层架构上融合了视觉与听觉能力的原生全模态模型
  • 全感官支持:它配备了专用的视觉编码器(7.29亿参数 ViT)和音频编码器(2.61亿参数),能够深度理解文本、图像、视频和音频。
  • 应用场景:非常适合需要处理多模态信息的任务,如视频内容分析、图表解读、语音交互等。

⚡ 极速响应与高性价比

如果说Pro版是“深思熟虑的专家”,那么MiMo-V2.5就是“反应敏捷的通才”。
  • 推理速度更快:相比Pro版,MiMo-V2.5的平均推理速度更高,能够更迅速地响应用户请求,特别适合对时延敏感的任务。
  • 成本更低:在 API调用成本上,MiMo-V2.5比Pro版更便宜(Credits 消耗仅为 Pro 版的一半),且在通用任务中展现出极高的Token效率。例如,在达到同等效果时,其Token消耗量比Meta的Muse Spark模型节省约 50%

MiMo-V2.5硬核技术规格

表格

特性详细参数
模型架构稀疏混合专家模型 (Sparse MoE)
参数量总参数 3100亿 (310B),激活参数 150亿 (15B)
上下文窗口原生支持 100万 (1M) Token 超长上下文
训练数据基于 48万亿 (48T) Token 训练
核心技术混合滑动窗口注意力 (SWA) + 3层多标记预测 (MTP) 模块

MiMo-V2.5性能表现

尽管体积比Pro版小,MiMo-V2.5在通用能力上依然强悍:
  • 评测成绩:在 Claw-Eval通用子集评测中得分62.3,在VideoMME、CharXiv等视频与图表分析评测中,表现逼近甚至超越了部分顶级闭源模型。
  • 能力跃升:相比上一代MiMo-V2-Omni,其跨模态推理和视频理解能力有显著提升;相比MiMo-V2-Pro,它在通用 Agent任务上表现更优且成本更低。

MiMo-V2.5开源与获取

  • 开源协议:同样采用MIT协议,允许全球开发者免费商用、微调和二次开发。
  • 硬件适配:与 Pro 版一样,MiMo-V2.5也在开源首日完成了与阿里平头哥、AMD、百度昆仑芯等主流芯片厂商的适配。
  • 激励计划:同样包含在小米的 “MiMo Orbit”计划中,开发者可申请免费Token额度进行体验与开发。
概括:MiMo-V2.5 是一款“全能且高效”的模型。如果你需要一个能看懂视频、听懂语音,且反应速度快、成本可控的模型来构建通用AI应用,MiMo-V2.5是最佳选择。
© 版权声明

相关文章

暂无评论

none
暂无评论...