Collision-Aware Vision-Language Learning for End-to-End Driving with Multimodal Infraction Datasets
作者: Alex Koran, Dimitrios Sinodinos, Hadi Hojjati, Takuya Nanri, Fangge Chen, Narges Armanfard
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-03-26
备注: 33 pages, 11 figures
💡 一句话要点
提出VLAAD和CARLA-Collide数据集,提升端到端自动驾驶的防碰撞能力。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 端到端驾驶 碰撞避免 多模态学习 视频语言模型 多示例学习
📋 核心要点
- 现有端到端自动驾驶方法在碰撞避免方面表现不足,尤其是在复杂场景下,导致违规率高。
- 论文提出VLAAD模型,利用视频和语言信息进行碰撞预测,并采用多示例学习增强时间局部性。
- 通过CARLA-Collide和Real-Collide数据集的训练和评估,VLAAD在闭环和开放环测试中均取得显著提升。
📝 摘要(中文)
端到端(E2E)自动驾驶的主要瓶颈仍然是高违规率,尤其是在CARLA排行榜上的低驾驶分数体现了这一点。尽管碰撞相关的违规行为是闭环评估中的主要失败模式,但碰撞感知的表征学习受到的关注有限。为了解决这个问题,我们首先开发了一个视频-语言增强的异常检测器(VLAAD),利用多示例学习(MIL)公式来获得稳定的、时间局部化的碰撞信号,用于主动预测。为了将这些能力过渡到闭环模拟中,我们必须克服现有模拟器数据集的局限性,这些数据集缺乏多模态,并且经常被限制在简单的交叉路口场景中。因此,我们引入了CARLA-Collide,这是一个大规模的多模态数据集,捕捉了高度多样化的道路网络中真实的碰撞事件。在这些多样化的模拟器数据上训练后,VLAAD作为一个碰撞感知的插件模块,可以无缝地集成到现有的E2E驾驶模型中。通过将我们的模块集成到预训练的TransFuser++代理中,我们展示了驾驶分数相对提高了14.12%,并且只需要最少的微调。除了闭环评估之外,我们还使用真实世界的驾驶数据在开放循环设置中评估了VLAAD的泛化能力。为了支持这项分析,我们引入了Real-Collide,这是一个包含多样化的行车记录仪视频的多模态数据集,并配有语义丰富的注释,用于碰撞检测和预测。在这个基准测试中,尽管只包含0.6B参数,但VLAAD优于一个数十亿参数的视觉-语言模型,在AUC方面实现了23.3%的改进。
🔬 方法详解
问题定义:现有端到端自动驾驶模型在碰撞避免方面存在不足,尤其是在复杂和多变的交通环境中。现有的模拟器数据集通常缺乏多模态信息和足够的多样性,难以训练出鲁棒的碰撞感知模型。此外,现有方法对碰撞的预测和处理不够及时,导致违规率居高不下。
核心思路:论文的核心思路是利用视频和语言信息,构建一个碰撞感知的异常检测器VLAAD,该检测器能够提前预测潜在的碰撞风险。通过多示例学习(MIL)框架,VLAAD能够从弱监督数据中学习到精确的碰撞信号,并将其融入到端到端驾驶模型中,从而提高模型的安全性。同时,论文还构建了大规模多模态数据集CARLA-Collide和Real-Collide,为模型的训练和评估提供了充足的数据支持。
技术框架:VLAAD模型作为一个插件模块,可以集成到现有的端到端驾驶模型中。其整体架构包括以下几个主要模块:1) 视频编码器:用于提取视频帧的视觉特征。2) 语言编码器:用于提取场景描述的语义特征。3) 多模态融合模块:将视觉特征和语义特征进行融合,得到场景的综合表示。4) 碰撞预测模块:基于融合后的特征,预测碰撞发生的概率。5) 多示例学习模块:利用MIL框架,从弱监督数据中学习到精确的碰撞信号。整个流程是,首先利用视频和语言编码器提取特征,然后通过多模态融合模块进行融合,最后通过碰撞预测模块和多示例学习模块进行碰撞预测和信号增强。
关键创新:论文最重要的技术创新点在于提出了VLAAD模型,该模型能够有效地利用视频和语言信息进行碰撞预测,并采用多示例学习框架来提高预测的准确性和鲁棒性。与现有方法相比,VLAAD能够更早地检测到潜在的碰撞风险,并将其融入到端到端驾驶模型中,从而显著提高模型的安全性。此外,CARLA-Collide和Real-Collide数据集的构建也为碰撞感知模型的训练和评估提供了重要的数据支持。
关键设计:VLAAD模型的关键设计包括:1) 多示例学习框架:采用MIL框架,将视频片段视为一个包,将包含碰撞的帧视为正例,其余帧视为负例。通过MIL损失函数,模型能够学习到精确的碰撞信号。2) 多模态融合模块:采用注意力机制,将视觉特征和语义特征进行加权融合,从而更好地捕捉场景的关键信息。3) 损失函数:采用交叉熵损失函数,用于训练碰撞预测模块。同时,采用MIL损失函数,用于训练多示例学习模块。4) 网络结构:视频编码器采用ResNet-50,语言编码器采用BERT,碰撞预测模块采用多层感知机。
🖼️ 关键图片
📊 实验亮点
VLAAD模型集成到TransFuser++后,在CARLA模拟器上驾驶分数相对提升14.12%。在Real-Collide数据集上,VLAAD(0.6B参数)的AUC优于一个数十亿参数的视觉-语言模型,提升幅度达23.3%,表明其具有良好的泛化能力和高效性。
🎯 应用场景
该研究成果可应用于自动驾驶汽车、辅助驾驶系统、机器人导航等领域,提升车辆和机器人在复杂环境下的安全性。通过提前预测碰撞风险并采取规避措施,可以有效降低交通事故发生率,提高交通效率,并为无人驾驶技术的广泛应用奠定基础。
📄 摘要(原文)
High infraction rates remain the primary bottleneck for end-to-end (E2E) autonomous driving, as evidenced by the low driving scores on the CARLA Leaderboard. Despite collision-related infractions being the dominant failure mode in closed-loop evaluations, collision-aware representation learning has received limited attention. To address this gap, we first develop a Video-Language-Augmented Anomaly Detector (VLAAD), leveraging a Multiple Instance Learning (MIL) formulation to obtain stable, temporally localized collision signals for proactive prediction. To transition these capabilities into closed-loop simulations, we must overcome the limitations of existing simulator datasets, which lack multimodality and are frequently restricted to simple intersection scenarios. Therefore, we introduce CARLA-Collide, a large-scale multimodal dataset capturing realistic collision events across highly diverse road networks. Trained on this diverse simulator data, VLAAD serves as a collision-aware plug-in module that can be seamlessly integrated into existing E2E driving models. By integrating our module into a pretrained TransFuser++ agent, we demonstrate a 14.12% relative increase in driving score with minimal fine-tuning. Beyond closed-loop evaluation, we further assess the generalization capability of VLAAD in an open-loop setting using real-world driving data. To support this analysis, we introduce Real-Collide, a multimodal dataset of diverse dashcam videos paired with semantically rich annotations for collision detection and prediction. On this benchmark, despite containing only 0.6B parameters, VLAAD outperforms a multi-billion-parameter vision-language model, achieving a 23.3% improvement in AUC.