Multimodal Action Diffusion for Robust End-to-End Autonomous Driving

📄 arXiv: 2606.02105v1 📥 PDF

作者: Jorge Daniel Rodríguez-Vidal, Diego Porres, Gabriel Villalonga Pineda, Antonio M. López Peña

分类: cs.CV

发布日期: 2026-06-01

备注: Preprint. June 1st, 2026. Corresponding author: Jorge Daniel Rodríguez-Vidal


💡 一句话要点

提出Action Diffusion Transformer,用于稳健的端到端自动驾驶多模态动作预测。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 端到端自动驾驶 多模态动作预测 扩散模型 Transformer 行为预测 最近邻匹配 Bench2Drive

📋 核心要点

  1. 现有端到端自动驾驶系统依赖中间轨迹点预测和手工控制器,缺乏对直接控制信号预测和动作多模态性的深入研究。
  2. 提出Action Diffusion Transformer (ADT),通过扩散模型原生建模驾驶动作的多模态分布,并使用最近邻匹配选择最优动作。
  3. ADT在Bench2Drive基准测试中超越了现有技术,延迟降低十倍,验证了多模态动作建模对性能、表征和稳定性的提升。

📝 摘要(中文)

端到端自动驾驶(E2E-AD)系统很大程度上依赖于预测中间轨迹航路点,并将最终控制权交给具有GPS访问权限的手工控制器。直接控制信号预测(以端到端方式输出油门、转向和制动)仍未得到充分探索,并且关键的是,动作多模态性在此类系统中的作用尚未得到很好的理解。我们认为,超越确定性的单动作输出不仅仅是一种建模选择,而是驾驶性能、表征质量和训练稳定性的关键驱动因素。为了验证这一点,我们引入了Action Diffusion Transformer (ADT),这是一个以MSE为目标函数训练的无锚扩散Transformer,它原生建模了合理驾驶动作的多模态分布。ADT不提交单个确定性命令,而是生成K个动作候选,并通过最近邻匹配(NNM)在推理时选择最合适的动作。除了强大的基准数字外,我们还表明,动作多模态性在学习的表征和行为一致性方面产生了可衡量的益处,而确定性架构无法复制这些效果。ADT在具有挑战性的闭环Bench2Drive基准测试中超越了先前的最先进水平,同时实现了十倍更低的延迟,这表明富有表现力的多模态动作建模在实践中是高效的,并且在概念上对于稳健的端到端驾驶至关重要。

🔬 方法详解

问题定义:现有端到端自动驾驶方法主要依赖于预测中间轨迹点,然后使用手工设计的控制器进行控制,这种方式无法充分利用原始输入信息,并且控制器的设计依赖于人工经验。此外,现有方法大多采用确定性的单动作输出,忽略了驾驶场景中动作的多样性和不确定性,限制了系统的鲁棒性和泛化能力。

核心思路:本文的核心思路是利用扩散模型直接预测控制信号(油门、转向、制动),并显式地建模动作的多模态分布。通过生成多个可能的动作候选,并根据当前场景选择最优动作,从而提高系统的鲁棒性和适应性。这种方法避免了中间轨迹点预测的误差累积,并允许系统学习更丰富的驾驶策略。

技术框架:ADT的整体架构是一个基于Transformer的扩散模型。该模型以传感器数据(例如,摄像头图像、激光雷达点云)作为输入,通过编码器提取特征,然后使用扩散过程逐步将动作噪声化。在推理阶段,模型通过逆扩散过程从噪声中生成多个动作候选,并使用最近邻匹配(NNM)算法选择与当前场景最匹配的动作。

关键创新:最重要的技术创新点在于使用扩散模型显式地建模动作的多模态分布。与传统的确定性模型相比,ADT能够生成多个合理的动作候选,从而更好地应对复杂和不确定的驾驶场景。此外,ADT采用无锚点(anchor-free)的设计,避免了手动设计锚点带来的偏差和局限性。

关键设计:ADT使用MSE损失函数训练扩散模型,目标是最小化预测动作与真实动作之间的均方误差。在网络结构方面,ADT采用了Transformer架构,利用自注意力机制捕捉输入数据中的长程依赖关系。在推理阶段,ADT使用最近邻匹配(NNM)算法选择最优动作,该算法基于特征空间中的距离度量,选择与当前场景最相似的动作候选。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ADT在Bench2Drive闭环基准测试中取得了显著的性能提升,超越了先前的最先进水平,并且延迟降低了十倍。实验结果表明,动作多模态性能够显著改善学习的表征和行为一致性,而确定性架构无法实现这些效果。这些结果验证了多模态动作建模对于稳健的端到端自动驾驶的重要性。

🎯 应用场景

该研究成果可应用于各种自动驾驶场景,包括城市道路、高速公路和越野环境。通过建模动作的多模态分布,可以提高自动驾驶系统在复杂和不确定环境中的鲁棒性和安全性。此外,该方法还可以应用于机器人控制、游戏AI等领域,提升智能体的决策能力和适应性。

📄 摘要(原文)

End-to-End Autonomous Driving (E2E-AD) systems have largely converged on predicting intermediate trajectory waypoints, delegating final control to hand-crafted controllers with GPS access. Direct control-signal prediction (outputting throttle, steer and brake in an end-to-end fashion) remains underexplored, and critically, the role of action multimodality in such systems is not well understood. We argue that moving beyond deterministic, single-action outputs is not merely a modelling choice, but a key driver of driving performance, representational quality, and training stability. To validate this, we introduce the Action Diffusion Transformer (ADT), an anchor-free diffusion transformer trained with a MSE objective that natively models the multimodal distribution of plausible driving actions. Rather than committing to a single deterministic command, ADT generates K action candidates and selects the most suitable one at inference via Nearest Neighbour Matching (NNM). Beyond strong benchmark numbers, we show that action multimodality yields measurable benefits in learned representations and behavioral consistency, effects that deterministic architectures cannot replicate. ADT surpasses previous state-of-the-art on the challenging closed-loop Bench2Drive benchmark while achieving ten times lower latency, demonstrating that expressive, multimodal action modelling is both practically efficient and conceptually essential for robust end-to-end driving.