Xiaomi OneVL – 小米发布并全面开源的自动驾驶大模型

Xiaomi OneVL是小米正式对外发布并全面开源的自动驾驶大模型。Xiaomi OneVL的核心定位是“一步式潜空间语言视觉推理框架”。OneVL并非简单的视觉模型，而是小米XLA(认知大模型架构)在自动驾驶领域的首次系统性落地，旨在解决当前自动驾驶大模型长期面临的“精度”与“速度”难以兼得的行业痛点。

Xiaomi OneVL核心突破：首次统一 VLA 与世界模型

在传统的自动驾驶技术路线中，VLA（视觉语言动作模型）和世界模型通常是两条独立发展的路线：

VLA：擅长理解当前场景并输出驾驶动作，但缺乏对未来的预测能力。
世界模型：擅长预测未来场景的演变，但往往独立于决策系统之外。

Xiaomi OneVL在业内率先通过潜空间推理，将VLA、世界模型和潜空间推理三大技术路线统一到了同一套框架中。它让模型不仅能“看懂”现在的路况，还能在内部“预演”未来的画面，从而实现更精准的驾驶决策。

Xiaomi OneVL三大关键技术

为了实现“又快又准”的推理，OneVL采用了三项核心技术：

双模态潜令牌（让模型在心里想清楚）：
- 视觉潜令牌：负责编码场景的物理因果结构（如车辆运动、道路几何）。
- 语言潜令牌：负责编码驾驶意图的语义表达。
- 两者结合，让模型在内部完成复杂的思考，而不是“边说边想”。
双辅助解码器（训练时用，推理时丢）：
- 视觉解码器：在训练时预测未来 0.5秒 / 1秒的画面，赋予模型世界模型的未来预测能力。
- 语言解码器：在训练时重建人类可读的思维链文字，保障决策的可解释性。
- 在正式推理时，这两个解码器会被完全移除，实现零额外计算开销。
“预填充式”一步推理（快到极致）：
- 抛弃了传统大模型逐字逐句生成的显式思维链（CoT），改为将所有潜令牌直接预填充进上下文，一次并行完成推理。
- 这使得它的推理延迟与“仅输出答案”的模型几乎一致，比传统的显式CoT最高快 2.3倍。

Xiaomi OneVL性能表现与落地前景

Xiaomi OneVL在多个主流基准测试中刷新了性能上限，并展现出了极强的车端部署潜力：

表格

维度	核心数据表现
推理速度	延迟低至 0.24秒（4.16 Hz），仅为传统 VLA 自回归推理的 5.4%
决策精度	在 NAVSIM 基准测试中 PDM-score 达到 88.84，首次在潜空间推理中超越显式 CoT（88.29）
综合排名	在 ROADWork、Impromptu、Alpamayo-R1 三项基准上均达到 SOTA（当前最优水平）