DTCCL: Disengagement-Triggered Contrastive Continual Learning for Autonomous Bus Planners
作者: Yanding Yang, Weitao Zhou, Jinhai Wang, Xiaomin Guo, Junze Wen, Xiaolong Liu, Lang Ding, Zheng Fu, Jinyu Miao, Kun Jiang, Diange Yang
分类: cs.RO
发布日期: 2025-12-22
💡 一句话要点
提出DTCCL框架,通过Disengagement触发的对比持续学习提升自动驾驶巴士规划策略
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自动驾驶 持续学习 对比学习 Disengagement事件 数据增强
📋 核心要点
- 现有模仿学习方法难以有效利用自动驾驶巴士运营中稀疏的Disengagement数据,导致策略改进受限。
- DTCCL框架通过Disengagement事件触发数据增强,利用对比学习区分安全与不安全行为,实现策略的持续改进。
- 实验表明,DTCCL框架相较于直接重新训练,在城市公交线路上的规划性能提升了48.6%。
📝 摘要(中文)
自动驾驶巴士在固定路线上运行,但必须在开放、动态的城市环境中运行。这些路线上的Disengagement事件通常在地理位置上集中,并且通常是由于规划器在高度交互区域中的失败而引起的。使用传统的模仿学习很难纠正此类策略级别的失败,因为模仿学习很容易过度拟合稀疏的Disengagement数据。为了解决这个问题,本文提出了一种Disengagement触发的对比持续学习(DTCCL)框架,该框架使自动驾驶巴士能够通过实际操作来改进规划策略。每次Disengagement都会触发基于云的数据增强,该增强通过扰动周围的智能体同时保留路线上下文来生成正样本和负样本。对比学习改进了策略表示,以更好地区分安全行为和不安全行为,并且在没有人工监督的情况下,在云-边缘循环中应用持续更新。在城市公交线路上的实验表明,与直接重新训练相比,DTCCL将整体规划性能提高了48.6%,从而验证了其在自动公共交通中可扩展的闭环策略改进的有效性。
🔬 方法详解
问题定义:自动驾驶巴士在复杂城市环境中运行时,由于规划策略的不足,经常出现Disengagement(人工接管)事件。这些事件数据稀疏且分布不均,传统的模仿学习方法容易过拟合,难以有效提升规划策略的鲁棒性和安全性。现有方法难以充分利用这些Disengagement事件进行策略优化。
核心思路:DTCCL的核心在于利用Disengagement事件作为触发信号,通过数据增强生成对比学习所需的正负样本,并结合持续学习框架,实现在线策略优化。通过对比学习,模型能够更好地区分安全和不安全的行为,从而提升规划策略的性能。
技术框架:DTCCL框架包含以下几个主要模块:1) Disengagement检测模块:实时监测自动驾驶巴士的运行状态,一旦发生Disengagement事件,立即触发后续流程。2) 云端数据增强模块:基于Disengagement事件发生时的场景数据,通过扰动周围智能体的行为,生成正负样本。正样本模拟安全行为,负样本模拟导致Disengagement的不安全行为。3) 对比学习模块:利用生成的数据进行对比学习,优化策略模型的表示,使其更好地区分安全和不安全行为。4) 持续学习模块:将优化后的策略模型部署到边缘设备(自动驾驶巴士),并在后续运行中持续收集数据,进行迭代优化。
关键创新:DTCCL的关键创新在于将Disengagement事件作为触发信号,结合数据增强和对比学习,实现自动驾驶策略的持续改进。与传统的离线训练方法相比,DTCCL能够更有效地利用实际运行数据,提升策略的鲁棒性和适应性。此外,云-边缘协同的持续学习框架也保证了策略能够不断适应新的环境和场景。
关键设计:数据增强策略是DTCCL的关键设计之一。通过对周围智能体的行为进行细微的扰动,生成具有挑战性的正负样本,从而提升对比学习的效果。对比学习的损失函数采用InfoNCE损失,旨在最大化正样本之间的相似度,同时最小化负样本之间的相似度。持续学习采用EWC(Elastic Weight Consolidation)策略,避免灾难性遗忘。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DTCCL框架在城市公交线路上的规划性能相较于直接重新训练提升了48.6%。此外,DTCCL还能够有效减少Disengagement事件的发生,提升自动驾驶巴士的运行效率和安全性。这些结果验证了DTCCL框架在实际应用中的有效性和优越性。
🎯 应用场景
DTCCL框架可应用于各种自动驾驶车辆,尤其是在公共交通领域,如自动驾驶出租车、自动驾驶物流车等。通过持续学习和优化,可以显著提升自动驾驶系统的安全性和可靠性,降低人工干预的需求,从而推动自动驾驶技术的商业化落地。此外,该框架也可扩展到其他需要持续学习和优化的机器人应用场景。
📄 摘要(原文)
Autonomous buses run on fixed routes but must operate in open, dynamic urban environments. Disengagement events on these routes are often geographically concentrated and typically arise from planner failures in highly interactive regions. Such policy-level failures are difficult to correct using conventional imitation learning, which easily overfits to sparse disengagement data. To address this issue, this paper presents a Disengagement-Triggered Contrastive Continual Learning (DTCCL) framework that enables autonomous buses to improve planning policies through real-world operation. Each disengagement triggers cloud-based data augmentation that generates positive and negative samples by perturbing surrounding agents while preserving route context. Contrastive learning refines policy representations to better distinguish safe and unsafe behaviors, and continual updates are applied in a cloud-edge loop without human supervision. Experiments on urban bus routes demonstrate that DTCCL improves overall planning performance by 48.6 percent compared with direct retraining, validating its effectiveness for scalable, closed-loop policy improvement in autonomous public transport.