Grounding Driving VLA via Inverse Kinematics
作者: Junsung Park, Hyunjung Shim
分类: cs.CV, cs.AI, cs.RO
发布日期: 2026-05-20
💡 一句话要点
通过逆运动学增强Driving VLA的视觉 grounding 能力,提升轨迹预测性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 自动驾驶 轨迹预测 逆运动学 视觉 grounding
📋 核心要点
- 现有Driving VLA在轨迹预测中过度依赖自我状态和文本命令,忽略了视觉信息,导致视觉 grounding 不足。
- 论文提出将Driving VLA重新设计为逆运动学求解器,通过预测未来视觉状态和引入逆运动学网络来增强视觉 grounding。
- 实验表明,该方法显著提升了模型利用视觉特征的能力,在轨迹规划任务上取得了与更大规模模型相当的性能。
📝 摘要(中文)
现有的Driving VLA在预测轨迹时,很大程度上忽略了视觉tokens,我们认为这并非源于训练不足,而是任务公式本身存在结构性问题。从逆运动学的角度来看,轨迹恢复需要当前和未来的视觉状态作为边界条件;而现有VLA只提供了前者,这导致模型倾向于通过自我状态和文本命令来走捷径。为了解决这个问题,我们重新设计了Driving VLA,使其更像一个逆运动学求解器。首先,引入了下一个视觉状态预测目标,要求LLM预测未来的视觉场景,从而提供密集的视觉监督,抑制捷径路径。其次,设计了一个独立的逆运动学网络(基于交叉注意力的条件扩散模型),该网络仅以当前和未来的视觉状态作为输入,以抑制轨迹解码过程中对自我状态和文本捷径的依赖。仅通过这种简单的方案,我们0.5B规模的模型就恢复了视觉grounding能力,并在闭环NAVSIM-v2和nuScenes基准测试中达到了与7B-8B VLA相当的轨迹规划性能,模型规模缩小了一个数量级以上。进一步的分析表明,这种改进源于模型恢复了利用视觉特征的能力,尤其是在转弯等动态驾驶情况下,效果最为显著。
🔬 方法详解
问题定义:现有的Driving VLA在轨迹预测任务中,存在视觉 grounding 不足的问题。模型倾向于依赖自我状态(ego status)和文本命令等非视觉信息来预测轨迹,而忽略了视觉输入。这导致模型在复杂或动态的驾驶场景中表现不佳,无法充分利用视觉信息进行决策。现有方法的痛点在于任务公式的结构性缺陷,即只提供了当前视觉状态作为输入,缺乏对未来视觉状态的约束。
核心思路:论文的核心解决思路是将轨迹预测问题视为一个逆运动学问题。逆运动学需要起始和目标状态作为输入,才能求解出中间的运动轨迹。因此,论文认为,要增强Driving VLA的视觉 grounding 能力,需要同时提供当前和未来的视觉状态作为输入,并约束模型预测未来的视觉场景。通过这种方式,可以迫使模型更多地关注视觉信息,而不是依赖非视觉捷径。
技术框架:整体框架包含两个主要模块:1) 下一视觉状态预测模块:该模块使用LLM来预测未来的视觉场景,从而提供密集的视觉监督信号。2) 逆运动学网络(IK Network):该模块是一个基于交叉注意力的条件扩散模型,它以当前和未来的视觉状态作为输入,预测车辆的运动轨迹。整个流程如下:首先,LLM预测下一帧的视觉状态。然后,IK Network以当前帧和预测的下一帧视觉状态作为输入,预测车辆的运动轨迹。
关键创新:最重要的技术创新点在于将逆运动学的思想引入到Driving VLA的设计中,并提出了下一视觉状态预测的目标。与现有方法只关注当前视觉状态不同,该方法同时考虑了当前和未来的视觉状态,从而更有效地利用了视觉信息。此外,使用条件扩散模型作为逆运动学网络也是一个创新点,扩散模型能够生成更加多样和真实的轨迹。
关键设计:下一视觉状态预测模块使用LLM进行预测,损失函数采用像素级别的重建损失。逆运动学网络采用基于交叉注意力的条件扩散模型,其中交叉注意力用于融合当前和未来视觉状态的信息。扩散模型的训练目标是最小化噪声预测误差。具体的参数设置和网络结构细节在论文中进行了详细描述。
🖼️ 关键图片
📊 实验亮点
该论文提出的方法在NAVSIM-v2和nuScenes基准测试中取得了显著的性能提升。仅使用0.5B规模的模型,就达到了与7B-8B规模的VLA相当的轨迹规划性能,模型规模缩小了一个数量级以上。实验结果表明,该方法能够有效提升模型利用视觉特征的能力,尤其是在转弯等动态驾驶场景中,效果更为明显。
🎯 应用场景
该研究成果可应用于自动驾驶、机器人导航等领域。通过增强视觉 grounding 能力,可以提高自动驾驶系统在复杂环境中的感知和决策能力,从而提升安全性。此外,该方法还可以应用于虚拟现实、游戏等领域,生成更加逼真和自然的运动轨迹。
📄 摘要(原文)
Existing Driving VLAs predict trajectories while largely ignoring their visual tokens -- a phenomenon we trace not to insufficient training but to a structurally ill-posed task formulation. We show that trajectory recovery, when viewed through the lens of inverse kinematics, requires both a current and a future visual state as boundary conditions; existing VLAs supply only the former, which encourages the model to shortcut through ego status and text commands alone. To address this, we re-design Driving VLA in the style of an inverse kinematics solver. First, a next visual state prediction objective that requires the LLM to predict the future visual scene provides dense visual supervision and suppresses shortcut paths. Second, a separate Inverse Kinematics Network (a cross-attention-based conditional diffusion model) that takes only the current and future visual states as input is designed to suppress reliance on ego status and textual shortcuts during trajectory decoding. With this simple prescription alone, our 0.5B-scale model recovers visual grounding and reaches trajectory planning performance comparable to 7B--8B VLAs more than an order of magnitude larger, on both the closed-loop NAVSIM-v2 and the nuScenes benchmarks. Extensive analysis further shows that this improvement stems from a recovered ability to exploit visual features, with the effect being most pronounced in dynamic driving situations such as turning.