Detection of Autonomous Shuttles in Urban Traffic Images Using Adaptive Residual Context
作者: Mohamed Aziz Younes, Nicolas Saunier, Guillaume-Alexandre Bilodeau
分类: cs.CV, cs.AI
发布日期: 2026-03-16
备注: 10 pages, 6 figures
💡 一句话要点
提出自适应残差上下文网络,用于城市交通图像中自动驾驶车辆的检测。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 目标检测 自动驾驶车辆 灾难性遗忘 上下文建模 注意力机制
📋 核心要点
- 现有目标检测方法在新增类别时易发生灾难性遗忘,导致场景理解能力下降,对道路安全应用构成威胁。
- 提出自适应残差上下文(ARC)架构,通过冻结上下文分支和可训练任务分支,保留预训练知识并学习新类别。
- 实验表明,ARC在保持知识的同时,能够匹配微调基线的性能,为新增车辆类别提供数据高效的解决方案。
📝 摘要(中文)
交通运输的逐步自动化有望通过共享出行来提高安全性和可持续性。与其他车辆和道路使用者一样,对于这种新技术而言,更需要对其进行监控,以了解其在交通中的交互方式并评估其安全性。这可以通过固定摄像头和视频对象检测来实现。然而,添加新的检测目标通常需要对常规检测方法进行微调。不幸的是,这种实现策略会导致一种被称为灾难性遗忘的现象,从而导致场景理解的退化。在道路安全应用中,保持上下文场景知识对于保护道路使用者至关重要。我们引入了自适应残差上下文(ARC)架构来解决这个问题。ARC通过上下文引导桥连接冻结的上下文分支和可训练的特定任务分支,利用注意力来传递空间特征,同时保留预训练的表示。在自定义数据集上的实验表明,ARC与微调的基线相匹配,同时显着提高了知识保留,为复杂城市环境添加新的车辆类别提供了一种数据高效的解决方案。
🔬 方法详解
问题定义:论文旨在解决在城市交通图像中检测自动驾驶车辆的问题。现有目标检测方法在新增自动驾驶车辆这一类别时,通常需要进行微调,这会导致灾难性遗忘,即模型在学习新类别的同时,会忘记之前学习到的其他类别的知识,从而降低整体的场景理解能力。尤其是在道路安全应用中,保持对周围环境的全面理解至关重要。
核心思路:论文的核心思路是设计一种能够保留预训练知识,同时有效学习新类别的检测架构。通过引入一个冻结的上下文分支,该分支负责提取通用的场景上下文信息,并将其与可训练的特定任务分支相结合,从而在学习新类别的同时,避免灾难性遗忘。
技术框架:ARC架构包含两个主要分支:一个冻结的上下文分支和一个可训练的特定任务分支。上下文分支使用预训练的模型(例如在ImageNet上训练的模型)提取通用的场景上下文特征。特定任务分支则专注于学习自动驾驶车辆的特定特征。这两个分支通过一个上下文引导桥(Context-Guided Bridge)连接,该桥利用注意力机制将上下文特征传递到特定任务分支,从而引导其学习。
关键创新:ARC架构的关键创新在于其自适应残差上下文机制。通过冻结上下文分支,可以有效地保留预训练知识,避免灾难性遗忘。上下文引导桥则利用注意力机制,自适应地将上下文信息传递到特定任务分支,从而提高检测的准确性和鲁棒性。这种设计使得模型能够在学习新类别的同时,保持对整体场景的理解。
关键设计:上下文引导桥是ARC架构的关键组成部分。它使用注意力机制来选择性地传递上下文特征。具体来说,它首先计算上下文特征和特定任务特征之间的相似度,然后使用softmax函数将相似度转换为注意力权重。最后,将上下文特征与注意力权重相乘,得到加权的上下文特征,并将其添加到特定任务特征中。这种设计使得模型能够根据当前场景的上下文信息,自适应地调整对不同特征的关注程度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,ARC架构在自定义数据集上能够与微调的基线方法相媲美,同时显著提高了知识保留能力。这意味着ARC能够在学习新类别的同时,保持对原有场景的理解,有效避免了灾难性遗忘。该方法为在复杂城市环境中添加新的车辆类别提供了一种数据高效的解决方案。
🎯 应用场景
该研究成果可应用于智能交通系统、自动驾驶安全监控、城市交通管理等领域。通过准确检测自动驾驶车辆,可以更好地理解其在交通中的行为模式,评估其安全性,并为未来的交通规划和管理提供数据支持。此外,该方法在解决目标检测中的灾难性遗忘问题方面具有通用性,可以推广到其他需要持续学习的应用场景。
📄 摘要(原文)
The progressive automation of transport promises to enhance safety and sustainability through shared mobility. Like other vehicles and road users, and even more so for such a new technology, it requires monitoring to understand how it interacts in traffic and to evaluate its safety. This can be done with fixed cameras and video object detection. However, the addition of new detection targets generally requires a fine-tuning approach for regular detection methods. Unfortunately, this implementation strategy will lead to a phenomenon known as catastrophic forgetting, which causes a degradation in scene understanding. In road safety applications, preserving contextual scene knowledge is of the utmost importance for protecting road users. We introduce the Adaptive Residual Context (ARC) architecture to address this. ARC links a frozen context branch and trainable task-specific branches through a Context-Guided Bridge, utilizing attention to transfer spatial features while preserving pre-trained representations. Experiments on a custom dataset show that ARC matches fine-tuned baselines while significantly improving knowledge retention, offering a data-efficient solution to add new vehicle categories for complex urban environments.