MTA-RL: Robust Urban Driving via Multi-modal Transformer-based 3D Affordances and Reinforcement Learning

📄 arXiv: 2605.10177v1 📥 PDF

作者: Guangli Chen, Dianzhao Li, Wenjian Zhong, Bangquan Xie, Ostap Okhrin

分类: cs.CV, cs.AI, cs.RO

发布日期: 2026-05-11


💡 一句话要点

提出MTA-RL框架,通过多模态Transformer 3D可供性与强化学习实现鲁棒城市自动驾驶

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 自动驾驶 多模态融合 Transformer 强化学习 3D可供性 端到端学习 场景理解

📋 核心要点

  1. 现有端到端模型缺乏可解释性,而模块化方案存在接口脆弱导致的误差累积问题,难以应对复杂城市交通。
  2. 提出MTA-RL框架,利用多模态Transformer融合视觉与激光雷达数据,生成中间层3D可供性表示作为决策依据。
  3. 实验表明该方法在CARLA中显著提升了路线完成率与安全性,并在未见场景中表现出极强的零样本泛化性能。

📝 摘要(中文)

鲁棒的城市自动驾驶需要在高密度交互场景下具备可靠的3D场景理解与稳定的决策能力。然而,现有的端到端模型缺乏可解释性,而模块化流水线则因脆弱的接口导致误差传播。本文提出了MTA-RL,这是首个通过基于多模态Transformer的3D可供性(Affordances)与强化学习(RL)连接感知与控制的框架。与以往直接回归动作的融合模型不同,该方法利用Transformer架构融合RGB图像与LiDAR点云,预测显式的、具有几何感知能力的3D可供性表示。这些结构化表示作为紧凑的观测空间,使RL策略能够仅基于预测的驾驶语义进行决策,从而显著提升了样本效率与系统稳定性。在CARLA仿真环境下的广泛评估表明,MTA-RL在不同交通密度下均优于现有基线,并在未见过的城镇中展现出卓越的零样本泛化能力。

🔬 方法详解

问题定义:论文旨在解决城市自动驾驶中感知与决策脱节的问题。现有端到端方法将传感器数据直接映射为控制指令,缺乏可解释性;传统模块化方法则因感知模块与规划模块间的接口脆弱,导致误差在复杂交互场景中迅速传播。

核心思路:引入“3D可供性(Affordances)”作为感知与决策之间的桥梁。通过将原始多模态数据转化为结构化的语义表示,降低了RL策略的输入维度,从而提升了决策的鲁棒性与训练效率。

技术框架:系统分为感知与决策两部分。感知端采用多模态Transformer融合RGB图像与LiDAR点云,输出显式的3D可供性特征;决策端则基于这些特征,利用强化学习策略输出车辆控制指令。

关键创新:核心创新在于将感知输出从高维原始数据转化为紧凑的、具有几何意义的3D可供性表示。这种设计不仅增强了模型的可解释性,还通过解耦感知与控制,有效缓解了端到端学习中的不稳定性。

关键设计:采用了多模态融合Transformer架构以提取空间特征,并结合精心设计的奖励函数(Reward Shaping)来引导RL策略在复杂交通流中学习最优驾驶行为,确保了模型在不同密度环境下的适应性。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

MTA-RL在CARLA Town01-03的密集交通场景中表现优异。相比基线模型,其路线完成率提升了9.0%,总行驶距离增加11.0%,且违规距离指标(Distance Per Violation)大幅提升83.7%。消融实验证实,多模态融合与奖励塑造机制是实现高性能的关键,证明了该方法在复杂城市环境下的鲁棒性。

🎯 应用场景

该研究主要应用于城市复杂交通环境下的自动驾驶系统。其通过引入可解释的中间层表示,为自动驾驶决策系统的安全性与可信度提供了新思路。未来可推广至物流配送、自动驾驶出租车等需要高鲁棒性决策的领域,特别是在传感器融合与端到端学习结合的工业实践中具有重要参考价值。

📄 摘要(原文)

Robust urban autonomous driving requires reliable 3D scene understanding and stable decision-making under dense interactions. However, existing end-to-end models lack interpretability, while modular pipelines suffer from error propagation across brittle interfaces. This paper proposes MTA-RL, the first framework that bridges perception and control through Multi-modal Transformer-based 3D Affordances and Reinforcement Learning (RL). Unlike previous fusion models that directly regress actions, RGB images and LiDAR point clouds are fused using a transformer architecture to predict explicit, geometry-aware affordance representations. These structured representations serve as a compact observation space, enabling the RL policy to operate purely on predicted driving semantics, which significantly improves sample efficiency and stability. Extensive evaluations in CARLA Town01-03 across varying densities (20-60 background vehicles) show that MTA-RL consistently outperforms state-of-the-art baselines. Trained solely on Town03, our method demonstrates superior zero-shot generalization in unseen towns, achieving up to a 9.0% increase in Route Completion, an 11.0% increase in Total Distance, and an 83.7% improvement in Distance Per Violation. Furthermore, ablation studies confirm that our multi-modal fusion and reward shaping are critical, significantly outperforming image-only and unshaped variants, demonstrating the effectiveness of MTA-RL for robust urban autonomous driving.