OneVL: One-Step Latent Reasoning and Planning with Vision-Language Explanation

📄 arXiv: 2604.18486v1 📥 PDF

作者: Jinghui Lu, Jiayi Guan, Zhijian Huang, Jinlong Li, Guang Li, Lingdong Kong, Yingyan Li, Han Wang, Shaoqing Xu, Yuechen Luo, Fang Li, Chenxu Dang, Junli Wang, Tao Xu, Jing Wu, Jianhua Wu, Xiaoshuai Hao, Wen Zhang, Tianyi Jiang, Lingfeng Zhang, Lei Zhou, Yingbo Tang, Jie Wang, Yinfeng Gao, Xizhou Bu, Haochen Tian, Yihang Qiu, Feiyang Jia, Lin Liu, Yigu Ge, Hanbing Li, Yuannan Shen, Jianwei Cui, Hongwei Xie, Bing Wang, Haiyang Sun, Jingwei Zhao, Jiahui Huang, Pei Liu, Zeyu Zhu, Yuncheng Jiang, Zibin Guo, Chuhong Gong, Hanchao Leng, Kun Ma, Naiyang Wang, Guang Chen, Kuiyuan Yang, Hangjun Ye, Long Chen

分类: cs.CV, cs.CL, cs.RO

发布日期: 2026-04-20

备注: Technical Report; 49 pages, 22 figures, 10 tables; Project Page at https://xiaomi-embodied-intelligence.github.io/OneVL

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

OneVL:基于视觉-语言解释的单步潜在推理与规划,提升自动驾驶轨迹预测效率。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自动驾驶 轨迹预测 视觉-语言模型 世界模型 潜在推理 Chain-of-Thought 因果推理

📋 核心要点

  1. 现有基于视觉-语言模型的自动驾驶轨迹预测方法,依赖自回归的CoT推理,计算延迟高,难以实时部署。
  2. OneVL通过引入视觉世界模型解码器,在潜在空间中同时编码语言和视觉信息,学习道路环境的因果动态。
  3. 实验表明,OneVL在四个基准测试中超越了显式CoT方法,实现了最先进的精度,同时保持了仅答案预测的低延迟。

📝 摘要(中文)

本文提出OneVL,一个统一的视觉-语言模型和世界模型框架,用于自动驾驶中的轨迹预测。该框架通过双重辅助解码器监督,将推理过程压缩到紧凑的潜在tokens中。除了重建文本CoT的语言解码器外,还引入了预测未来帧tokens的视觉世界模型解码器,迫使潜在空间内化道路几何、智能体运动和环境变化的因果动态。通过三阶段训练流程,逐步将这些潜在变量与轨迹、语言和视觉目标对齐,确保稳定的联合优化。在推理时,辅助解码器被丢弃,所有潜在tokens在单个并行传递中预填充,匹配了仅答案预测的速度。在四个基准测试中,OneVL成为第一个超越显式CoT的潜在CoT方法,以仅答案的延迟提供最先进的准确性,并直接证明了更严格的压缩,在语言和世界模型监督下,产生比冗长的token-by-token推理更具泛化性的表示。

🔬 方法详解

问题定义:现有基于视觉-语言模型的自动驾驶轨迹预测方法,特别是基于Chain-of-Thought (CoT) 的方法,虽然精度高,但由于其自回归的特性,推理速度慢,难以满足实时自动驾驶的需求。潜在CoT方法试图通过将推理过程压缩到连续的隐状态来解决这个问题,但性能始终不如显式CoT方法。原因是纯语言的潜在表示压缩的是世界的符号抽象,而不是实际控制驾驶的因果动态。

核心思路:OneVL的核心思路是将视觉-语言模型与世界模型相结合,通过双重辅助解码器(语言解码器和视觉世界模型解码器)来监督潜在空间的学习,迫使潜在空间同时编码语言信息和道路环境的因果动态。这样,潜在空间不仅包含对场景的理解,还包含对未来状态的预测能力,从而提高轨迹预测的准确性和泛化性。

技术框架:OneVL框架包含一个视觉-语言编码器,用于将输入图像和文本描述编码成潜在tokens。然后,这些潜在tokens被输入到两个辅助解码器中:一个语言解码器,用于重建文本CoT;一个视觉世界模型解码器,用于预测未来帧tokens。通过三阶段训练流程,逐步将这些潜在变量与轨迹、语言和视觉目标对齐。在推理时,辅助解码器被丢弃,所有潜在tokens在单个并行传递中预填充,直接预测轨迹。

关键创新:OneVL的关键创新在于引入了视觉世界模型解码器,将视觉信息融入到潜在空间中,从而学习道路环境的因果动态。这与以往的潜在CoT方法只关注语言信息不同,使得OneVL能够更好地理解和预测驾驶场景。此外,OneVL还提出了一个三阶段训练流程,确保了语言、视觉和轨迹预测任务的稳定联合优化。

关键设计:OneVL使用了Transformer架构作为视觉-语言编码器和解码器。视觉世界模型解码器预测未来帧的视觉tokens,这些tokens可以是离散的(例如,通过VQ-VAE学习的码本),也可以是连续的(例如,像素值)。损失函数包括轨迹预测损失、语言重建损失和视觉预测损失。三阶段训练流程包括:首先,预训练视觉-语言编码器和语言解码器;然后,训练视觉世界模型解码器;最后,联合优化所有模块。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OneVL在四个自动驾驶基准测试中取得了显著的成果,成为第一个超越显式CoT的潜在CoT方法。它在保持与仅答案预测相当的低延迟的同时,实现了最先进的轨迹预测精度。这表明,通过语言和世界模型的双重监督,可以有效地压缩推理过程,并获得更具泛化性的表示。

🎯 应用场景

OneVL在自动驾驶领域具有广泛的应用前景,可以用于提高自动驾驶系统的感知、推理和决策能力。该方法还可以应用于机器人导航、视频游戏等需要理解环境并进行预测的领域。未来,OneVL可以进一步扩展到处理更复杂的场景和任务,例如多智能体交互、交通拥堵预测等。

📄 摘要(原文)

Chain-of-Thought (CoT) reasoning has become a powerful driver of trajectory prediction in VLA-based autonomous driving, yet its autoregressive nature imposes a latency cost that is prohibitive for real-time deployment. Latent CoT methods attempt to close this gap by compressing reasoning into continuous hidden states, but consistently fall short of their explicit counterparts. We suggest that this is due to purely linguistic latent representations compressing a symbolic abstraction of the world, rather than the causal dynamics that actually govern driving. Thus, we present OneVL (One-step latent reasoning and planning with Vision-Language explanations), a unified VLA and World Model framework that routes reasoning through compact latent tokens supervised by dual auxiliary decoders. Alongside a language decoder that reconstructs text CoT, we introduce a visual world model decoder that predicts future-frame tokens, forcing the latent space to internalize the causal dynamics of road geometry, agent motion, and environmental change. A three-stage training pipeline progressively aligns these latents with trajectory, language, and visual objectives, ensuring stable joint optimization. At inference, the auxiliary decoders are discarded and all latent tokens are prefilled in a single parallel pass, matching the speed of answer-only prediction. Across four benchmarks, OneVL becomes the first latent CoT method to surpass explicit CoT, delivering state-of-the-art accuracy at answer-only latency, and providing direct evidence that tighter compression, when guided in both language and world-model supervision, produces more generalizable representations than verbose token-by-token reasoning. Project Page: https://xiaomi-embodied-intelligence.github.io/OneVL