MiniMax M2.7 – 稀宇科技发布的旗舰级Agent大模型

AI最新项目2个月前更新文明旁观者

93 00

MiniMax M2.7是稀宇科技(MiniMax)发布的旗舰级Agent大模型，其最大突破在于首次实现模型深度参与自身迭代的“自我进化”能力，而非单纯提升单点性能。

该模型通过构建Agent Harness体系，使AI能自主完成数据构建、实验设计、代码优化等研发环节，在部分场景中承担30%-50%的研发工作量，并在内部评测中实现约30%的效果提升。

MiniMax M2.7 - 稀宇科技(MiniMax)发布的旗舰级Agent大模型

MiniMax M2.7核心创新

1. Agent Harness驱动的闭环优化

自主迭代能力：
M2.7可自行构建复杂Agent Harness（智能体执行框架），在无人工编码干预下完成“分析失败轨迹→规划改动→修改代码→运行评测→对比结果→决定保留或回退”的100+轮迭代循环。例如在优化内部脚手架时，模型自主发现采样参数最优组合、改进工作流指引等有效策略。
短时记忆与自反馈机制：
每轮迭代后生成记忆文件并进行自反馈，基于历史信息规划下一轮优化方向。在MLE Bench Lite的22项机器学习任务中，24小时内最佳成绩达9金5银1铜，三次平均得牌率66.6%，与Gemini-3.1持平，仅次于Opus-4.6（75.7%）和GPT-5.4（71.2%）。

2. 研发流程的范式转变

人类角色转变：
研究员仅需设定研究目标，模型负责执行文献调研、数据流水线搭建、实验监控、日志分析、代码修复等全流程。过去需多团队协作的任务，M2.7可承担30%-50%的工作流，大幅加速问题发现与实验迭代。
系统级自我进化验证：
仅用1人4天、零人工编码，M2.7自主搭建了覆盖数据、训练、评测的完整Agent系统，形成“用AI迭代AI”的闭环。

MiniMax M2.7关键能力表现

1. 真实工程场景能力

端到端开发能力：
在SWE-Pro多语言代码修复测试中正确率达56.22%，追平GPT-5.3-Codex；在Repo级项目交付基准VIBE-Pro中得分55.6%，接近Opus 4.6水平。
生产系统深度理解：
对复杂工程系统的理解能力在Terminal Bench 2测试中达57.0%，能精准定位线上故障，并将故障恢复时间缩短至三分钟以内。

2. 多智能体协作与办公场景

Agent Teams原生支持：
模型无需外部编排即可稳定锚定角色身份，在包含50+技能的复杂环境中保持97%的指令遵循率。例如在电商项目开发中，多智能体可自主拆解任务、协作完成UI设计与API开发。
专业办公能力强化：
在GDPval-AA评测中ELO得分1495，显著提升Excel/PPT/Word的多轮高保真编辑能力，能直接生成含财务预测模型的专业报告。

MiniMax M2.7落地价值与生态进展

1. 开源与硬件适配

2026年4月12日全球开源，获华为昇腾、英伟达、摩尔线程等芯片厂商首日完成适配。华为基于vllm-Ascend推理引擎在Atlas 800系列提供全流程支持，摩尔线程在MTT S5000上实现高性能推理。
Mac端部署方案：
通过JANGTQ量化技术（2-bit压缩），可在M3 Ultra上以56.5GB显存占用实现91.5%的MMLU得分，速度达44 token/s；LM Studio方案需138GB内存但操作更简便。

2. 实际应用场景

代码与系统开发：
可独立完成从需求分析到部署的全流程，例如5轮内开发霓虹灯时钟，25882 token内构建贪吃蛇游戏。
角色扮演与交互创新：
支持跨语言角色人格一致性，适配OpenClaw长期记忆框架后，能维持稳定身份与情感。MiniMax开源的OpenRoom交互系统进一步扩展了可视化多模态交互能力。

© 版权声明

文章版权归作者所有，未经允许请勿转载。

为这篇文章评分

0.0/ 10

0 人评价

点击⭐️进行评分

相关文章

Webwright – 微软研究院开源的终端原生Web代理框架

Webwright – 微软研究院开源的终端原生Web代理框架

1个月前

0840

Qwen3.7-Plus – 阿里巴巴发布的多模态智能体模型

Qwen3.7-Plus – 阿里巴巴发布的多模态智能体模型

AI最新项目 # 大模型最新

14小时前

0920

悟界·RoboBrain Orca – 智源研究院发布的多模态表征世界模型

新悟界·RoboBrain Orca – 智源研究院发布的多模态表征世界模型

6天前

0260

Reasonix – 专为DeepSeek模型优化的开源终端AI编程助手

Reasonix – 专为DeepSeek模型优化的开源终端AI编程助手

2个月前

0890

暂无评论

none

暂无评论...