GO-2 – 智元机器人发布的新一代具身智能基座大模型

GO-2(全称 Genie Operator-2)是智元机器人(Agibot)发布的新一代具身智能基座大模型

简单来说,它是机器人的“超级大脑”,旨在解决机器人“脑子懂了但手没跟上”的难题,让机器人从单纯的“理解指令”进化到能稳定、精准地“执行任务”。

GO-2 - 智元机器人发布的新一代具身智能基座大模型

核心突破:从“黑盒摸索”到“知行合一”

在 GO-2 之前,很多机器人存在“语义-运动鸿沟”——它们能听懂“把杯子拿过来”,也能规划路径,但真正伸手去抓时,往往因为视觉偏差或动作控制不稳导致失败。

GO-2 通过统一架构打通了逻辑推理与动作执行,主要依靠两大核心技术:

  1. 动作思维链
    • 原理:模仿人类“三思而后行”的过程。模型不会直接输出控制信号,而是先在“脑海”中生成一段高层的动作序列规划(例如:走近 -> 定位 -> 抓取 -> 放置)
    • 效果:让机器人从“边看边做”转变为“想清楚再做”,显著降低了执行过程中的偏差和错误
  2. 异步双系统
    • 慢系统(规划):以低频运行,负责输出高层的任务意图和方向。
    • 快系统(执行):以高频运行,结合实时视觉观测,动态调整动作以应对环境扰动(如物体滑动、光线变化)
    • 效果:确保机器人在复杂、非结构化的真实环境中也能稳定干活,不会因为一点小意外就“死机”或动作变形。

性能表现:刷新行业纪录

GO-2 在多项国际权威测试中取得了全球领先的成绩(SOTA),证明了其强大的泛化能力和执行力:
  • LIBERO 基准测试:平均成功率高达 98.5%,在空间、物体、目标等四类任务中均排名第一
  • 真实世界迁移能力:在Genie Sim 3.0评测中,零样本跨域迁移成功率达到 82.9%,显著优于NVIDIA GROOT、 π0.5 等国际主流模型
  • 学术认可:其核心技术成果已被计算机视觉顶会CVPR 2026和自然语言处理顶会ACL 2026 收录

产业落地:不仅是技术,更是生产力

GO-2 不仅仅是一个实验室模型,它已经深度整合进智元的Genie Studio开发平台,支持千台级机器人协同训练,训练效率提升了约 10 倍
目前,GO-2 已经开始在真实的工业场景中“打工”:
  • 龙旗科技:在平板电脑产线上进行精密上下料,告别了对预设轨迹的机械依赖。
  • 均胜电子:在汽车零部件工厂进行高难度的柔性装配,成功率超过 99%

GO-2的同类竞品对比

对比维度GO-2(智元机器人)π0.5(Physical Intelligence)RT-2(Google DeepMind)
核心架构动作思维链 + 异步双系统流匹配(Flow Matching)架构VLA端到端(基于PaLI-X)
规划方式在动作空间显式推理,生成结构化高层动作序列直接生成动作,无显式中间规划层直接从像素和指令映射为动作标记
执行机制异步双系统:慢系统低频提供”意图流”+快系统高频实时跟随修正单一生成模型端到端同时完成理解与执行端到端直接输出控制信号
关键优势弥合语义-运动鸿沟,规划与执行强制对齐,真实场景稳定性强互联网规模视觉-语言预训练,高频动作生成能力强经典VLA先驱,架构简洁,端到端训练
主要局限商业闭源,需配套智元硬件生态规划与执行压缩在同一时刻,真实场景稳定性待提升高层推理与底层控制断层,长程任务误差累积明显
LIBERO成功率98.7%96.9%未公开/显著较低
GenieSim真实环境82.9%(零样本迁移)77.5%通常低于60%
进化能力支持数据闭环持续进化(预训练+后训练)依赖离线静态数据依赖离线静态数据
© 版权声明

相关文章

暂无评论

none
暂无评论...