Xiaomi OneVL – 小米发布并全面开源的自动驾驶大模型

Xiaomi OneVL是小米正式对外发布并全面开源的自动驾驶大模型。Xiaomi OneVL的核心定位是“一步式潜空间语言视觉推理框架”。OneVL并非简单的视觉模型,而是小米XLA(认知大模型架构)在自动驾驶领域的首次系统性落地,旨在解决当前自动驾驶大模型长期面临的“精度”与“速度”难以兼得的行业痛点。

Xiaomi OneVL - 小米发布并全面开源的自动驾驶大模型

Xiaomi OneVL核心突破:首次统一 VLA 与世界模型

在传统的自动驾驶技术路线中,VLA(视觉语言动作模型)世界模型通常是两条独立发展的路线:
  • VLA:擅长理解当前场景并输出驾驶动作,但缺乏对未来的预测能力。
  • 世界模型:擅长预测未来场景的演变,但往往独立于决策系统之外
Xiaomi OneVL在业内率先通过潜空间推理,将VLA、世界模型和潜空间推理三大技术路线统一到了同一套框架中。它让模型不仅能“看懂”现在的路况,还能在内部“预演”未来的画面,从而实现更精准的驾驶决策。
Xiaomi OneVL - 小米发布并全面开源的自动驾驶大模型

Xiaomi OneVL三大关键技术

为了实现“又快又准”的推理,OneVL采用了三项核心技术:
  1. 双模态潜令牌(让模型在心里想清楚)
    • 视觉潜令牌:负责编码场景的物理因果结构(如车辆运动、道路几何)。
    • 语言潜令牌:负责编码驾驶意图的语义表达。
    • 两者结合,让模型在内部完成复杂的思考,而不是“边说边想”。
  2. 双辅助解码器(训练时用,推理时丢)
    • 视觉解码器:在训练时预测未来 0.5秒 / 1秒 的画面,赋予模型世界模型的未来预测能力。
    • 语言解码器:在训练时重建人类可读的思维链文字,保障决策的可解释性。
    • 在正式推理时,这两个解码器会被完全移除,实现零额外计算开销
  3. “预填充式”一步推理(快到极致)
    • 抛弃了传统大模型逐字逐句生成的显式思维链(CoT),改为将所有潜令牌直接预填充进上下文,一次并行完成推理。
    • 这使得它的推理延迟与“仅输出答案”的模型几乎一致,比传统的显式CoT最高快 2.3倍

Xiaomi OneVL性能表现与落地前景

Xiaomi OneVL在多个主流基准测试中刷新了性能上限,并展现出了极强的车端部署潜力:

表格

维度核心数据表现
推理速度延迟低至 0.24秒(4.16 Hz),仅为传统 VLA 自回归推理的 5.4%
决策精度在 NAVSIM 基准测试中 PDM-score 达到 88.84,首次在潜空间推理中超越显式 CoT(88.29)
综合排名在 ROADWork、Impromptu、Alpamayo-R1 三项基准上均达到 SOTA(当前最优水平)

双重可解释性:拒绝“黑箱决策”

为了解决自动驾驶“为什么这么开”的安全疑虑,OneVL提供了语言和视觉双维度的可解释性
  • 文字说明:能用自然语言解释决策原因(例如:“因为右侧有施工锥桶和停放的卡车,所以需要向左变道并保持减速”)。
  • 画面预测:能直接展示模型预测出的“接下来会发生什么”的未来画面

全面开源与生态战略

小米此次采用了最宽松的MIT开源协议,将Xiaomi OneVL的模型权重、训练及推理代码全部公开
  • 对行业:极大地降低了中小企业的研发门槛,为量产车端的实时部署提供了可行的技术路径。
  • 对小米:这是小米“人车家全生态”战略的核心技术底座。通过开源,小米旨在吸引全球开发者共建生态,不仅服务于小米汽车(如 SU7、YU7),未来还有望打通机器人、智能家居等跨设备的智能协同

Xiaomi OneVL的项目地址

项目官网:https://xiaomi-embodied-intelligence.github.io/OneVL/

GitHub仓库:https://github.com/xiaomi-research/onevl

arXiv技术论文:https://arxiv.org/pdf/2604.18486

© 版权声明

相关文章

暂无评论

none
暂无评论...