MiniMax M2.7是稀宇科技(MiniMax)发布的旗舰级Agent大模型,其最大突破在于首次实现模型深度参与自身迭代的“自我进化”能力,而非单纯提升单点性能。
该模型通过构建Agent Harness体系,使AI能自主完成数据构建、实验设计、代码优化等研发环节,在部分场景中承担30%-50%的研发工作量,并在内部评测中实现约30%的效果提升。

MiniMax M2.7核心创新
1. Agent Harness驱动的闭环优化
- 自主迭代能力:
M2.7可自行构建复杂Agent Harness(智能体执行框架),在无人工编码干预下完成“分析失败轨迹→规划改动→修改代码→运行评测→对比结果→决定保留或回退”的100+轮迭代循环。例如在优化内部脚手架时,模型自主发现采样参数最优组合、改进工作流指引等有效策略。 - 短时记忆与自反馈机制:
每轮迭代后生成记忆文件并进行自反馈,基于历史信息规划下一轮优化方向。在MLE Bench Lite的22项机器学习任务中,24小时内最佳成绩达9金5银1铜,三次平均得牌率66.6%,与Gemini-3.1持平,仅次于Opus-4.6(75.7%)和GPT-5.4(71.2%)。
2. 研发流程的范式转变
- 人类角色转变:
研究员仅需设定研究目标,模型负责执行文献调研、数据流水线搭建、实验监控、日志分析、代码修复等全流程。过去需多团队协作的任务,M2.7可承担30%-50%的工作流,大幅加速问题发现与实验迭代。 - 系统级自我进化验证:
仅用1人4天、零人工编码,M2.7自主搭建了覆盖数据、训练、评测的完整Agent系统,形成“用AI迭代AI”的闭环。
MiniMax M2.7关键能力表现
1. 真实工程场景能力
- 端到端开发能力:
在SWE-Pro多语言代码修复测试中正确率达56.22%,追平GPT-5.3-Codex;在Repo级项目交付基准VIBE-Pro中得分55.6%,接近Opus 4.6水平。 - 生产系统深度理解:
对复杂工程系统的理解能力在Terminal Bench 2测试中达57.0%,能精准定位线上故障,并将故障恢复时间缩短至三分钟以内。
2. 多智能体协作与办公场景
- Agent Teams原生支持:
模型无需外部编排即可稳定锚定角色身份,在包含50+技能的复杂环境中保持97%的指令遵循率。例如在电商项目开发中,多智能体可自主拆解任务、协作完成UI设计与API开发。 - 专业办公能力强化:
在GDPval-AA评测中ELO得分1495,显著提升Excel/PPT/Word的多轮高保真编辑能力,能直接生成含财务预测模型的专业报告。
MiniMax M2.7落地价值与生态进展
1. 开源与硬件适配
- 2026年4月12日全球开源,获华为昇腾、英伟达、摩尔线程等芯片厂商首日完成适配。华为基于vllm-Ascend推理引擎在Atlas 800系列提供全流程支持,摩尔线程在MTT S5000上实现高性能推理。
- Mac端部署方案:
通过JANGTQ量化技术(2-bit压缩),可在M3 Ultra上以56.5GB显存占用实现91.5%的MMLU得分,速度达44 token/s;LM Studio方案需138GB内存但操作更简便。
2. 实际应用场景
- 代码与系统开发:
可独立完成从需求分析到部署的全流程,例如5轮内开发霓虹灯时钟,25882 token内构建贪吃蛇游戏。 - 角色扮演与交互创新:
支持跨语言角色人格一致性,适配OpenClaw长期记忆框架后,能维持稳定身份与情感。MiniMax开源的OpenRoom交互系统进一步扩展了可视化多模态交互能力。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



