Xiaomi Auto World Model – 小米发布的世界模型全新框架

AI最新项目15小时前更新文明旁观者

76 00

Xiaomi Auto World Model是小米汽车发布的世界模型全新框架，其核心突破在于首次将三维重建与视频生成深度耦合为一体化架构，以“重建锚定几何、生成填补想象”的新范式，推动辅助驾驶从“场景感知”向“认知推演、场景进化”的高阶形态跃迁。

该框架已在Waymo、nuScenes等主流基准测试中全面取得SOTA(行业顶尖水平)，并落地于合成数据生成、仿真测试和智能座舱三大核心场景。

Xiaomi Auto World Model - 小米汽车发布的世界模型全新框架

Xiaomi Auto World Model核心特点

1. 深度耦合的双模块架构

WorldRec（重建模块）：通过稀疏三维锚点表征高效构建精确3D场景几何，避免传统稠密高斯方法的计算冗余，10秒视频重建仅需10秒。
WorldGen（生成模块）：在重建几何约束下补全未观测区域和未来帧，支持最长1分钟连续视频生成，远超行业常见的8-16帧上限。
关键创新：两模块结构化互锁，而非简单串联。重建提供3D几何作为“稳定锚点”，生成则扩展预测边界，形成闭环协同。

2. 三大协同增益能力

高稳定性：WorldRec的确定性几何约束有效抑制长时序自回归中的误差累积，避免生成内容漂移失真。
高一致性：通过4D场景表征作为跨帧共享记忆，确保不同时刻、视角下场景内容全局一致。
高真实性：WorldGen以重建渲染的RGB图像为骨架生成内容，显著缩小“仿真-现实”的域差异，提升物理合理性。

Xiaomi Auto World Model技术优势与表现

1. 权威基准测试全面领先

重建领域：在Waymo数据集上，WorldRec的PSNR（峰值信噪比）达28.48，超出前SOTA方法DGGT约1个点；在nuScenes零样本泛化测试中仍保持领先，证明强新场景适应能力。
生成领域：
- 单视角生成速度0.19秒/帧（H20 GPU），比竞品Epona快5.6倍。
- nuScenes数据集上FVD（视频质量评估指标）达64.97，FID为7.04，FVD指标超越所有对比模型。

2. 工程化落地能力突出

生成效率：仅需4步去噪即可完成单帧生成，大幅降低计算负载。
长时序可靠性：支持81帧连续生成，可模拟暴雨、动物闯入等极端长尾场景，而多数基线仅能生成8-16帧。

Xiaomi Auto World Model技术原理与创新点

1. 双模块深度耦合机制

重建锚定几何：WorldRec通过多视角特征聚合与可见性加权融合，输出稀疏三维锚点作为几何骨架，为生成提供物理约束。
生成填补想象：WorldGen在重建约束下进行两阶段训练：
- 全双向时序注意力预训练：学习场景时序规律。
- 因果微调与蒸馏加速：优化长时序预测稳定性，避免漂移。

2. 与小米技术生态的协同

统一认知框架：与XLA认知大模型、OneVL潜空间推理框架形成技术闭环。OneVL将VLA（视觉语言动作）与世界模型整合，而Auto World Model提供物理规律驱动的预测能力，共同实现“感知-理解-推演”链条。
数据-算法正循环：生成的合成数据直接用于感知模型训练，仿真测试结果反哺模型优化，形成闭环迭代机制。

Xiaomi Auto World Model实际应用场景

1. 合成数据生成

已交付超10万clips高质量合成数据，用于训练感知模型识别危险场景，解决真实世界长尾数据稀缺问题。

2. 仿真测试优化

构建高保真闭环仿真环境，可复现真实事故进行定向优化，显著降低实车测试成本与风险。

3. 智能座舱交互

动态生成第一人称驾驶教学视频，在用户面对复杂路况时实时提供操作指引，已上线小米全系车型的“辅助驾驶学堂”。

Xiaomi Auto World Model的核心价值在于打破重建与生成的技术割裂，通过结构化耦合实现“1+1>2”的协同效应，不仅提升辅助驾驶系统的预测可靠性，更为行业提供了从“被动感知”迈向“主动认知”的可行路径。

其工程化落地能力已验证技术实用性，标志着小米在认知驱动型辅助驾驶领域的关键突破。

AI最新项目 # 大模型最新

© 版权声明

文章版权归作者所有，未经允许请勿转载。

为这篇文章评分

0.0/ 10

0 人评价

点击⭐️进行评分

相关文章

Gemma 4 12B – 谷歌DeepMind发布的统一多模态模型

Gemma 4 12B – 谷歌DeepMind发布的统一多模态模型

1个月前

02710

Intern-S2-Preview – 开源的新一代书生科学大模型的预览版

Intern-S2-Preview – 开源的新一代书生科学大模型的预览版

2个月前

0850

Confucius4 – 网易有道推出的“子曰”大模型4.0版本

Confucius4 – 网易有道推出的“子曰”大模型4.0版本

2个月前

01130

TRAE Work Design – 字节跳动推出的AI原生设计工作流解决方案

TRAE Work Design – 字节跳动推出的AI原生设计工作流解决方案

3周前

0430

暂无评论

none

暂无评论...