GO-2(全称 Genie Operator-2)是智元机器人(Agibot)发布的新一代具身智能基座大模型。
简单来说,它是机器人的“超级大脑”,旨在解决机器人“脑子懂了但手没跟上”的难题,让机器人从单纯的“理解指令”进化到能稳定、精准地“执行任务”。

核心突破:从“黑盒摸索”到“知行合一”
在 GO-2 之前,很多机器人存在“语义-运动鸿沟”——它们能听懂“把杯子拿过来”,也能规划路径,但真正伸手去抓时,往往因为视觉偏差或动作控制不稳导致失败。
GO-2 通过统一架构打通了逻辑推理与动作执行,主要依靠两大核心技术:
- 动作思维链
- 原理:模仿人类“三思而后行”的过程。模型不会直接输出控制信号,而是先在“脑海”中生成一段高层的动作序列规划(例如:走近 -> 定位 -> 抓取 -> 放置)。
- 效果:让机器人从“边看边做”转变为“想清楚再做”,显著降低了执行过程中的偏差和错误。
- 异步双系统
- 慢系统(规划):以低频运行,负责输出高层的任务意图和方向。
- 快系统(执行):以高频运行,结合实时视觉观测,动态调整动作以应对环境扰动(如物体滑动、光线变化)。
- 效果:确保机器人在复杂、非结构化的真实环境中也能稳定干活,不会因为一点小意外就“死机”或动作变形。
性能表现:刷新行业纪录
GO-2 在多项国际权威测试中取得了全球领先的成绩(SOTA),证明了其强大的泛化能力和执行力:
- LIBERO 基准测试:平均成功率高达 98.5%,在空间、物体、目标等四类任务中均排名第一。
- 真实世界迁移能力:在Genie Sim 3.0评测中,零样本跨域迁移成功率达到 82.9%,显著优于NVIDIA GROOT、 π0.5 等国际主流模型。
- 学术认可:其核心技术成果已被计算机视觉顶会CVPR 2026和自然语言处理顶会ACL 2026 收录。
产业落地:不仅是技术,更是生产力
GO-2 不仅仅是一个实验室模型,它已经深度整合进智元的Genie Studio开发平台,支持千台级机器人协同训练,训练效率提升了约 10 倍。
目前,GO-2 已经开始在真实的工业场景中“打工”:
- 龙旗科技:在平板电脑产线上进行精密上下料,告别了对预设轨迹的机械依赖。
- 均胜电子:在汽车零部件工厂进行高难度的柔性装配,成功率超过 99%。
GO-2的同类竞品对比
| 对比维度 | GO-2(智元机器人) | π0.5(Physical Intelligence) | RT-2(Google DeepMind) |
|---|---|---|---|
| 核心架构 | 动作思维链 + 异步双系统 | 流匹配(Flow Matching)架构 | VLA端到端(基于PaLI-X) |
| 规划方式 | 在动作空间显式推理,生成结构化高层动作序列 | 直接生成动作,无显式中间规划层 | 直接从像素和指令映射为动作标记 |
| 执行机制 | 异步双系统:慢系统低频提供”意图流”+快系统高频实时跟随修正 | 单一生成模型端到端同时完成理解与执行 | 端到端直接输出控制信号 |
| 关键优势 | 弥合语义-运动鸿沟,规划与执行强制对齐,真实场景稳定性强 | 互联网规模视觉-语言预训练,高频动作生成能力强 | 经典VLA先驱,架构简洁,端到端训练 |
| 主要局限 | 商业闭源,需配套智元硬件生态 | 规划与执行压缩在同一时刻,真实场景稳定性待提升 | 高层推理与底层控制断层,长程任务误差累积明显 |
| LIBERO成功率 | 98.7% | 96.9% | 未公开/显著较低 |
| GenieSim真实环境 | 82.9%(零样本迁移) | 77.5% | 通常低于60% |
| 进化能力 | 支持数据闭环持续进化(预训练+后训练) | 依赖离线静态数据 | 依赖离线静态数据 |
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



