ACE-Ego – 大晓机器人携手港中文推出一脑多型开源VLA模型

ACE-Ego是大晓机器人联合香港中文大学多媒体实验室（CUHK MMLab）于2026年6月17日发布的开源“一脑多型”具身操作视觉语言动作（VLA）模型，通过“以人为中心”的预训练范式，首次实现单一模型高效适配多类型机器人硬件，并在两大国际权威基准测试中刷新最高纪录。该模型显著降低了具身智能的训练成本与部署门槛，推动机器人从实验室场景向真实商业环境落地。

ACE-Ego核心优势

性能领先国际基准
- 在人形机器人操作基准 RoboCasa GR1 TableTop 上，以 72.8% 的平均成功率刷新纪录，大幅超越英伟达GR00T（47.6%）、京东JoyAI-RA（63.2%）等主流模型。
- 在双臂操作基准 RoboTwin 2.0 的强域随机化测试中，达成 90.62% 的成功率，环境适应性极强——从干净场景到随机化场景性能仅衰减0.5个百分点，远优于行业平均水平。
突破“一机一模型”行业瓶颈
- 实现 “一脑多型”能力，即同一模型可适配人形机器人、机械臂、四足机器人等不同硬件形态，新机型部署仅需不到200条动作数据，显著降低适配成本。
训练成本大幅优化
- 通过融合海量低成本人类第一视角视频（如日常操作录像）与机器人数据，将人类视频转化为有效监督信号，相比纯依赖高成本真机遥操作数据的方案，训练效率提升显著。

ACE-Ego技术原理

1. “以人为中心”的ACE研发范式

摒弃传统“以机器为中心”的路线，将人类与物理世界的互动规律作为核心起点，构建“环境式数据采集—开悟世界模型—具身交互”全链路技术体系，重点解决人机数据在空间、结构、时序、标签质量上的四重异构难题。

2. 四大核心机制

第一视角统一动作空间表达：以机器人头部相机坐标系为基准，将人类手部动作与机器人末端轨迹统一映射至同一视觉坐标系，消除跨平台坐标校准复杂度。
URDF本体形态映射：通过解析机器人描述文件（URDF），将不同硬件的关节结构编码为统一中间层，使模型能识别“谁在执行动作”，保留主干网络的通用视觉理解能力。
时间对齐动态分块：以物理时长而非固定帧数划分动作序列，解决不同机器人控制频率（10Hz-30Hz）差异导致的时序混乱问题。
可靠性自适应目标函数：对人类视频数据实施三级动态加权（通道级、数据集级、帧级），优先保障高精度机器人数据的训练权重，同时利用人类视频拓展行为多样性。

ACE-Ego关键特点

强环境鲁棒性
在光照、纹理、物体位置随机变化的复杂场景中，任务成功率波动极小，更贴近真实商业部署需求。
长周期任务处理能力
突破传统模型仅能完成简单抓取的限制，可稳定执行塑料袋打包、鞋盒装填等需连续操作10秒以上的复杂任务。
精细操作理解
- 对铰接类物体（如鞋盒翻盖）能精准识别转轴与边缘，沿自然轨迹完成操作。
- 对柔性物体（如轻薄塑料袋）可实现稳定抓取、撑开与形态控制，避免变形干扰。
快速跨机型迁移
新硬件适配无需重新训练，仅需替换少量参数，部署效率提升一个数量级。

ACE-Ego核心功能与应用场景

1. 已验证功能

零售场景全链路操作：
- 鞋盒标准化装填（精准定位鞋与盒的空间关系，无碰撞合盖）。
- 柔性塑料袋打包（撑开袋口、放入物品、收紧封口全流程自动化）。
- 咖啡定量分装（控制倾倒角度与速度，实现零撒漏操作）。
复杂物体交互：
- 双臂协同任务（如工具使用、多步骤物品转移）。
- 铰接物体操作（抽屉开合、容器堆叠等）。

2. 典型应用场景