GO-2 – 智元机器人发布的新一代具身智能基座大模型

AI最新项目10小时前发布文明旁观者

GO-2(全称 Genie Operator-2)是智元机器人(Agibot)发布的新一代具身智能基座大模型。

简单来说，它是机器人的“超级大脑”，旨在解决机器人“脑子懂了但手没跟上”的难题，让机器人从单纯的“理解指令”进化到能稳定、精准地“执行任务”。

GO-2 - 智元机器人发布的新一代具身智能基座大模型

核心突破：从“黑盒摸索”到“知行合一”

在 GO-2 之前，很多机器人存在“语义-运动鸿沟”——它们能听懂“把杯子拿过来”，也能规划路径，但真正伸手去抓时，往往因为视觉偏差或动作控制不稳导致失败。

GO-2 通过统一架构打通了逻辑推理与动作执行，主要依靠两大核心技术：

动作思维链
- 原理：模仿人类“三思而后行”的过程。模型不会直接输出控制信号，而是先在“脑海”中生成一段高层的动作序列规划（例如：走近 -> 定位 -> 抓取 -> 放置）。
- 效果：让机器人从“边看边做”转变为“想清楚再做”，显著降低了执行过程中的偏差和错误。
异步双系统
- 慢系统（规划）：以低频运行，负责输出高层的任务意图和方向。
- 快系统（执行）：以高频运行，结合实时视觉观测，动态调整动作以应对环境扰动（如物体滑动、光线变化）。
- 效果：确保机器人在复杂、非结构化的真实环境中也能稳定干活，不会因为一点小意外就“死机”或动作变形。

性能表现：刷新行业纪录

GO-2 在多项国际权威测试中取得了全球领先的成绩（SOTA），证明了其强大的泛化能力和执行力：

LIBERO 基准测试：平均成功率高达 98.5%，在空间、物体、目标等四类任务中均排名第一。
真实世界迁移能力：在Genie Sim 3.0评测中，零样本跨域迁移成功率达到 82.9%，显著优于NVIDIA GROOT、 $π_{0} .5$ 等国际主流模型。
学术认可：其核心技术成果已被计算机视觉顶会CVPR 2026和自然语言处理顶会ACL 2026 收录。

产业落地：不仅是技术，更是生产力

GO-2 不仅仅是一个实验室模型，它已经深度整合进智元的Genie Studio开发平台，支持千台级机器人协同训练，训练效率提升了约 10 倍。

目前，GO-2 已经开始在真实的工业场景中“打工”：

龙旗科技：在平板电脑产线上进行精密上下料，告别了对预设轨迹的机械依赖。
均胜电子：在汽车零部件工厂进行高难度的柔性装配，成功率超过 99%。

GO-2的同类竞品对比

对比维度	GO-2（智元机器人）	π0.5（Physical Intelligence）	RT-2（Google DeepMind）
核心架构	动作思维链 + 异步双系统	流匹配（Flow Matching）架构	VLA端到端（基于PaLI-X）
规划方式	在动作空间显式推理，生成结构化高层动作序列	直接生成动作，无显式中间规划层	直接从像素和指令映射为动作标记
执行机制	异步双系统：慢系统低频提供”意图流”+快系统高频实时跟随修正	单一生成模型端到端同时完成理解与执行	端到端直接输出控制信号
关键优势	弥合语义-运动鸿沟，规划与执行强制对齐，真实场景稳定性强	互联网规模视觉-语言预训练，高频动作生成能力强	经典VLA先驱，架构简洁，端到端训练
主要局限	商业闭源，需配套智元硬件生态	规划与执行压缩在同一时刻，真实场景稳定性待提升	高层推理与底层控制断层，长程任务误差累积明显
LIBERO成功率	98.7%	96.9%	未公开/显著较低
GenieSim真实环境	82.9%（零样本迁移）	77.5%	通常低于60%
进化能力	支持数据闭环持续进化（预训练+后训练）	依赖离线静态数据	依赖离线静态数据

© 版权声明

文章版权归作者所有，未经允许请勿转载。

相关文章

微信ClawBot – 一键连AI智能体，聊天就能办公

微信ClawBot – 一键连AI智能体，聊天就能办公

3周前

0230

VoxCPM2 – OpenBMB团队开源的一款语音生成基座模型

新VoxCPM2 – OpenBMB团队开源的一款语音生成基座模型

3天前

050

GLM-5-Turbo – 智谱为OpenClaw打造的智能体专用基座模型

GLM-5-Turbo – 智谱为OpenClaw打造的智能体专用基座模型

3周前

0230

百度Qianfan-OCR端到端文档模型全面解析

百度Qianfan-OCR端到端文档模型全面解析

3周前

0250

暂无评论

none

暂无评论...