DiffVLA++: Bridging Cognitive Reasoning and End-to-End Driving through Metric-Guided Alignment
作者: Yu Gao, Anqing Jiang, Yiru Wang, Wang Jijun, Hao Jiang, Zhigang Sun, Heng Yuwen, Wang Shuo, Hao Zhao, Sun Hao
分类: cs.RO, cs.CV
发布日期: 2025-10-20 (更新: 2025-11-04)
💡 一句话要点
DiffVLA++:通过度量引导对齐桥接认知推理与端到端驾驶
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 自动驾驶 端到端学习 视觉语言动作模型 认知推理 轨迹规划
📋 核心要点
- 端到端驾驶模型缺乏世界知识,难以泛化到复杂场景,而VLA模型虽然具备推理能力,但3D推理不足导致动作不合理。
- DiffVLA++通过度量引导对齐,融合VLA模型的认知推理和端到端模型的物理可行性,从而提升自动驾驶性能。
- 该方法构建VLA和E2E模块,并引入度量引导的轨迹评分器对齐二者输出,在ICCV 2025自动驾驶大赛中取得显著成果。
📝 摘要(中文)
传统的端到端(E2E)驾驶模型在生成物理上可行的轨迹方面很有效,但由于缺乏理解和推理周围环境所需的基本世界知识,通常无法推广到长尾场景。相比之下,视觉-语言-动作(VLA)模型利用世界知识来处理具有挑战性的案例,但其有限的3D推理能力可能导致物理上不可行的动作。本文介绍DiffVLA++,一个增强的自动驾驶框架,通过度量引导对齐显式地桥接认知推理和E2E规划。首先,我们构建一个VLA模块,直接生成语义上接地的驾驶轨迹。其次,我们设计一个具有密集轨迹词汇表的E2E模块,以确保物理可行性。第三,也是最关键的是,我们引入了一个度量引导的轨迹评分器,用于引导和对齐VLA和E2E模块的输出,从而整合它们的互补优势。在ICCV 2025自动驾驶大赛排行榜上的实验表明,DiffVLA++实现了49.12的EPDMS。
🔬 方法详解
问题定义:现有端到端驾驶模型在处理长尾场景时泛化能力不足,主要原因是缺乏对环境的理解和推理能力。而视觉-语言-动作(VLA)模型虽然具备一定的推理能力,但其3D推理能力有限,容易产生物理上不可行的动作。因此,如何有效结合两者的优势,提升自动驾驶系统的性能和安全性,是本文要解决的核心问题。
核心思路:DiffVLA++的核心思路是通过度量引导的对齐,将VLA模型的认知推理能力和端到端模型的物理可行性相结合。具体来说,就是利用VLA模型生成语义上合理的轨迹,利用端到端模型生成物理上可行的轨迹,然后通过一个度量引导的轨迹评分器,对齐这两个模块的输出,从而得到既合理又可行的驾驶轨迹。这样设计的目的是为了充分利用两种模型的优势,弥补各自的不足。
技术框架:DiffVLA++的整体框架包含三个主要模块:VLA模块、E2E模块和度量引导的轨迹评分器。VLA模块负责生成语义上接地的驾驶轨迹,它利用视觉和语言信息进行推理,从而生成符合交通规则和场景理解的轨迹。E2E模块负责生成物理上可行的轨迹,它通过一个密集的轨迹词汇表来确保轨迹的物理可行性。度量引导的轨迹评分器则负责对齐VLA和E2E模块的输出,它根据一定的度量标准,对两个模块生成的轨迹进行评分,并选择最优的轨迹作为最终的驾驶决策。
关键创新:DiffVLA++的关键创新在于度量引导的轨迹对齐机制。传统的做法通常是直接融合VLA和E2E模型的输出,但这种方法往往难以保证轨迹的合理性和可行性。DiffVLA++通过度量引导的轨迹评分器,显式地对齐两个模块的输出,从而更好地整合了它们的优势。这种对齐机制不仅提高了驾驶决策的准确性,也增强了系统的鲁棒性。
关键设计:度量引导的轨迹评分器的具体设计是关键。论文中可能涉及的关键参数包括:用于衡量语义合理性的度量标准(例如,与交通规则的符合程度、与场景描述的一致性),用于衡量物理可行性的度量标准(例如,轨迹的平滑度、车辆的动力学约束),以及用于融合两个模块输出的权重参数。此外,VLA和E2E模块的网络结构、损失函数等细节也会影响最终的性能。
🖼️ 关键图片
📊 实验亮点
DiffVLA++在ICCV 2025自动驾驶大赛排行榜上取得了显著成果,EPDMS指标达到了49.12。这一结果表明,该方法能够有效地结合认知推理和端到端规划的优势,提升自动驾驶系统的性能。具体的对比基线和提升幅度需要在论文中进一步查找。
🎯 应用场景
DiffVLA++的研究成果可应用于各种自动驾驶场景,例如城市道路、高速公路和停车场等。该方法能够提升自动驾驶系统在复杂环境下的决策能力和安全性,降低事故风险。此外,该研究思路还可以推广到其他机器人领域,例如无人机、服务机器人等,提升机器人的环境适应性和任务执行能力。未来,该技术有望推动自动驾驶技术的普及和应用。
📄 摘要(原文)
Conventional end-to-end (E2E) driving models are effective at generating physically plausible trajectories, but often fail to generalize to long-tail scenarios due to the lack of essential world knowledge to understand and reason about surrounding environments. In contrast, Vision-Language-Action (VLA) models leverage world knowledge to handle challenging cases, but their limited 3D reasoning capability can lead to physically infeasible actions. In this work we introduce DiffVLA++, an enhanced autonomous driving framework that explicitly bridges cognitive reasoning and E2E planning through metric-guided alignment. First, we build a VLA module directly generating semantically grounded driving trajectories. Second, we design an E2E module with a dense trajectory vocabulary that ensures physical feasibility. Third, and most critically, we introduce a metric-guided trajectory scorer that guides and aligns the outputs of the VLA and E2E modules, thereby integrating their complementary strengths. The experiment on the ICCV 2025 Autonomous Grand Challenge leaderboard shows that DiffVLA++ achieves EPDMS of 49.12.