Xiaomi Auto World Model是小米汽车发布的世界模型全新框架,其核心突破在于首次将三维重建与视频生成深度耦合为一体化架构,以“重建锚定几何、生成填补想象”的新范式,推动辅助驾驶从“场景感知”向“认知推演、场景进化”的高阶形态跃迁。
该框架已在Waymo、nuScenes等主流基准测试中全面取得SOTA(行业顶尖水平),并落地于合成数据生成、仿真测试和智能座舱三大核心场景。

Xiaomi Auto World Model核心特点
1. 深度耦合的双模块架构
- WorldRec(重建模块):通过稀疏三维锚点表征高效构建精确3D场景几何,避免传统稠密高斯方法的计算冗余,10秒视频重建仅需10秒。
- WorldGen(生成模块):在重建几何约束下补全未观测区域和未来帧,支持最长1分钟连续视频生成,远超行业常见的8-16帧上限。
- 关键创新:两模块结构化互锁,而非简单串联。重建提供3D几何作为“稳定锚点”,生成则扩展预测边界,形成闭环协同。
2. 三大协同增益能力
- 高稳定性:WorldRec的确定性几何约束有效抑制长时序自回归中的误差累积,避免生成内容漂移失真。
- 高一致性:通过4D场景表征作为跨帧共享记忆,确保不同时刻、视角下场景内容全局一致。
- 高真实性:WorldGen以重建渲染的RGB图像为骨架生成内容,显著缩小“仿真-现实”的域差异,提升物理合理性。
Xiaomi Auto World Model技术优势与表现
1. 权威基准测试全面领先
- 重建领域:在Waymo数据集上,WorldRec的PSNR(峰值信噪比)达28.48,超出前SOTA方法DGGT约1个点;在nuScenes零样本泛化测试中仍保持领先,证明强新场景适应能力。
- 生成领域:
- 单视角生成速度0.19秒/帧(H20 GPU),比竞品Epona快5.6倍。
- nuScenes数据集上FVD(视频质量评估指标)达64.97,FID为7.04,FVD指标超越所有对比模型。
2. 工程化落地能力突出
- 生成效率:仅需4步去噪即可完成单帧生成,大幅降低计算负载。
- 长时序可靠性:支持81帧连续生成,可模拟暴雨、动物闯入等极端长尾场景,而多数基线仅能生成8-16帧。
Xiaomi Auto World Model技术原理与创新点
1. 双模块深度耦合机制
- 重建锚定几何:WorldRec通过多视角特征聚合与可见性加权融合,输出稀疏三维锚点作为几何骨架,为生成提供物理约束。
- 生成填补想象:WorldGen在重建约束下进行两阶段训练:
- 全双向时序注意力预训练:学习场景时序规律。
- 因果微调与蒸馏加速:优化长时序预测稳定性,避免漂移。
2. 与小米技术生态的协同
- 统一认知框架:与XLA认知大模型、OneVL潜空间推理框架形成技术闭环。OneVL将VLA(视觉语言动作)与世界模型整合,而Auto World Model提供物理规律驱动的预测能力,共同实现“感知-理解-推演”链条。
- 数据-算法正循环:生成的合成数据直接用于感知模型训练,仿真测试结果反哺模型优化,形成闭环迭代机制。
Xiaomi Auto World Model实际应用场景
1. 合成数据生成
- 已交付超10万clips高质量合成数据,用于训练感知模型识别危险场景,解决真实世界长尾数据稀缺问题。
2. 仿真测试优化
- 构建高保真闭环仿真环境,可复现真实事故进行定向优化,显著降低实车测试成本与风险。
3. 智能座舱交互
- 动态生成第一人称驾驶教学视频,在用户面对复杂路况时实时提供操作指引,已上线小米全系车型的“辅助驾驶学堂”。
Xiaomi Auto World Model的核心价值在于打破重建与生成的技术割裂,通过结构化耦合实现“1+1>2”的协同效应,不仅提升辅助驾驶系统的预测可靠性,更为行业提供了从“被动感知”迈向“主动认知”的可行路径。
其工程化落地能力已验证技术实用性,标志着小米在认知驱动型辅助驾驶领域的关键突破。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...



