Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving
作者: Ahmed Abouelazm, Felix Klingebiel, Philip Schörner, J. Marius Zöllner
分类: cs.AI
发布日期: 2026-05-28
备注: Accepted in The IEEE International Conference on Intelligent Transportation Systems (ITSC) September 15-18, 2026 -- Naples, Italy
💡 一句话要点
提出不确定性感知和时序约束的专家指导强化学习,用于自动驾驶安全探索
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 自动驾驶 强化学习 专家指导 不确定性感知 安全探索 无信号交叉口 IQN
📋 核心要点
- 自动驾驶强化学习探索面临安全挑战,agent需要在探索新行为中学习,但随机探索可能导致事故。
- 该方法利用专家建议引导探索,并引入不确定性感知机制,自适应地调整专家干预的频率和时长。
- 实验表明,该方法在CARLA模拟器中,相比基线方法,显著提升了自动驾驶的成功率,并降低了事故发生率。
📝 摘要(中文)
自动驾驶强化学习中的探索本质上是不安全的,agent必须体验新的行为才能学习,但探索可能导致碰撞或驶离道路。本文提出了一种不确定性感知框架,利用专家建议来指导探索,同时避免长期依赖。当认知或偶然不确定性超过从滚动缓冲区导出的自适应阈值时,会触发建议,确保建议随着agent的置信度而演变。具有随机提前停止启发式的承诺-冷却策略调节指导的持续时间和频率,使agent能够进行连贯的操作,而不会耗尽建议预算。专家和agent的经验在off-policy隐式分位数网络(IQN)骨干中的共享回放缓冲区中组合,从而能够有效重用专家轨迹。在CARLA中的实验表明,该方法优于IQN基线,成功率提高了5-7%,并减少了失败,表明风险敏感的不确定性与受监管的专家集成相结合,能够为基于传感器的RL策略学习在无信号交叉路口导航中实现更安全,更高效的探索。
🔬 方法详解
问题定义:自动驾驶强化学习中,探索过程的安全性是一个关键问题。传统的强化学习方法在探索过程中,agent可能会采取危险的动作,导致碰撞或偏离道路。现有方法难以在安全性和探索效率之间取得平衡,尤其是在复杂场景下,例如无信号交叉路口。
核心思路:该论文的核心思路是利用专家建议来指导agent的探索过程,同时引入不确定性感知机制,避免agent过度依赖专家建议。通过监控agent的不确定性水平,自适应地触发和调节专家建议,从而在安全探索和自主学习之间取得平衡。
技术框架:该框架包含以下几个主要模块:1) 基于滚动缓冲区的不确定性阈值自适应模块,用于动态调整触发专家建议的不确定性阈值;2) 承诺-冷却策略模块,用于调节专家建议的持续时间和频率,避免agent过度依赖专家;3) 共享回放缓冲区,用于存储专家和agent的经验,并利用off-policy IQN算法进行学习。
关键创新:该论文的关键创新在于将不确定性感知机制与专家指导相结合,并提出了一种承诺-冷却策略来调节专家建议。这种方法能够根据agent的置信度自适应地调整专家建议,从而实现更安全和高效的探索。此外,使用滚动缓冲区来动态调整不确定性阈值也是一个创新点。
关键设计:不确定性阈值通过滚动缓冲区计算,根据历史经验动态调整。承诺-冷却策略包含一个随机提前停止启发式,用于在专家建议期间随机停止,鼓励agent自主探索。损失函数基于隐式分位数网络(IQN),用于学习状态-动作价值函数的分位数分布。专家经验和agent经验共享一个回放缓冲区,以提高学习效率。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在CARLA模拟器中,相比IQN基线方法,成功率提高了5-7%,并显著减少了失败次数。这表明该方法能够有效地利用专家建议,并在保证安全性的前提下,提高agent的探索效率。此外,实验还验证了不确定性感知机制和承诺-冷却策略的有效性。
🎯 应用场景
该研究成果可应用于自动驾驶车辆的训练和部署,尤其是在复杂和不确定的交通环境中,例如无信号交叉路口、拥堵路段等。通过利用专家知识和不确定性感知机制,可以提高自动驾驶系统的安全性和可靠性,减少事故发生率,并加速自动驾驶技术的商业化落地。此外,该方法也可以推广到其他需要安全探索的强化学习应用中,例如机器人控制、游戏AI等。
📄 摘要(原文)
Exploration in reinforcement learning for autonomous driving is inherently unsafe: agents must experience novel behaviors to learn, yet exploration can lead to collisions or off-road driving. We propose an uncertainty-aware framework that leverages expert advice to guide exploration while avoiding long-term dependence. Advice is triggered when epistemic or aleatoric uncertainty exceeds adaptive thresholds derived from rolling buffers, ensuring advice evolves with the agent's confidence. A commitment-cooldown strategy with a stochastic early-stop heuristic regulates the duration and frequency of guidance, exposing the agent to coherent maneuvers without exhausting the advice budget. Expert and agent experiences are combined in a shared replay buffer within an off-policy implicit quantile network (IQN) backbone, enabling efficient reuse of expert trajectories. Experiments in CARLA show that our method outperforms the IQN baseline, improving success by 5-7% and reducing failures, demonstrating that risk-sensitive uncertainty coupled with regulated expert integration enables safer and more efficient exploration for sensor-based RL policy learning in unsignalized intersection navigation.