Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

作者: Ahmed Abouelazm, Felix Klingebiel, Philip Schörner, J. Marius Zöllner

分类: cs.AI

发布日期: 2026-05-28

备注: Accepted in The IEEE International Conference on Intelligent Transportation Systems (ITSC) September 15-18, 2026 -- Naples, Italy

💡 一句话要点

提出不确定性感知和时序约束的专家指导强化学习，用于自动驾驶安全探索

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 自动驾驶 强化学习 专家指导 不确定性感知 安全探索 无信号交叉口 IQN

📋 核心要点

自动驾驶强化学习探索面临安全挑战，agent需要在探索新行为中学习，但随机探索可能导致事故。
该方法利用专家建议引导探索，并引入不确定性感知机制，自适应地调整专家干预的频率和时长。
实验表明，该方法在CARLA模拟器中，相比基线方法，显著提升了自动驾驶的成功率，并降低了事故发生率。

📝 摘要（中文）

自动驾驶强化学习中的探索本质上是不安全的，agent必须体验新的行为才能学习，但探索可能导致碰撞或驶离道路。本文提出了一种不确定性感知框架，利用专家建议来指导探索，同时避免长期依赖。当认知或偶然不确定性超过从滚动缓冲区导出的自适应阈值时，会触发建议，确保建议随着agent的置信度而演变。具有随机提前停止启发式的承诺-冷却策略调节指导的持续时间和频率，使agent能够进行连贯的操作，而不会耗尽建议预算。专家和agent的经验在off-policy隐式分位数网络（IQN）骨干中的共享回放缓冲区中组合，从而能够有效重用专家轨迹。在CARLA中的实验表明，该方法优于IQN基线，成功率提高了5-7%，并减少了失败，表明风险敏感的不确定性与受监管的专家集成相结合，能够为基于传感器的RL策略学习在无信号交叉路口导航中实现更安全，更高效的探索。

🔬 方法详解

问题定义：自动驾驶强化学习中，探索过程的安全性是一个关键问题。传统的强化学习方法在探索过程中，agent可能会采取危险的动作，导致碰撞或偏离道路。现有方法难以在安全性和探索效率之间取得平衡，尤其是在复杂场景下，例如无信号交叉路口。

核心思路：该论文的核心思路是利用专家建议来指导agent的探索过程，同时引入不确定性感知机制，避免agent过度依赖专家建议。通过监控agent的不确定性水平，自适应地触发和调节专家建议，从而在安全探索和自主学习之间取得平衡。

技术框架：该框架包含以下几个主要模块：1) 基于滚动缓冲区的不确定性阈值自适应模块，用于动态调整触发专家建议的不确定性阈值；2) 承诺-冷却策略模块，用于调节专家建议的持续时间和频率，避免agent过度依赖专家；3) 共享回放缓冲区，用于存储专家和agent的经验，并利用off-policy IQN算法进行学习。

关键创新：该论文的关键创新在于将不确定性感知机制与专家指导相结合，并提出了一种承诺-冷却策略来调节专家建议。这种方法能够根据agent的置信度自适应地调整专家建议，从而实现更安全和高效的探索。此外，使用滚动缓冲区来动态调整不确定性阈值也是一个创新点。

关键设计：不确定性阈值通过滚动缓冲区计算，根据历史经验动态调整。承诺-冷却策略包含一个随机提前停止启发式，用于在专家建议期间随机停止，鼓励agent自主探索。损失函数基于隐式分位数网络（IQN），用于学习状态-动作价值函数的分位数分布。专家经验和agent经验共享一个回放缓冲区，以提高学习效率。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在CARLA模拟器中，相比IQN基线方法，成功率提高了5-7%，并显著减少了失败次数。这表明该方法能够有效地利用专家建议，并在保证安全性的前提下，提高agent的探索效率。此外，实验还验证了不确定性感知机制和承诺-冷却策略的有效性。

🎯 应用场景

该研究成果可应用于自动驾驶车辆的训练和部署，尤其是在复杂和不确定的交通环境中，例如无信号交叉路口、拥堵路段等。通过利用专家知识和不确定性感知机制，可以提高自动驾驶系统的安全性和可靠性，减少事故发生率，并加速自动驾驶技术的商业化落地。此外，该方法也可以推广到其他需要安全探索的强化学习应用中，例如机器人控制、游戏AI等。

📄 摘要（原文）

Exploration in reinforcement learning for autonomous driving is inherently unsafe: agents must experience novel behaviors to learn, yet exploration can lead to collisions or off-road driving. We propose an uncertainty-aware framework that leverages expert advice to guide exploration while avoiding long-term dependence. Advice is triggered when epistemic or aleatoric uncertainty exceeds adaptive thresholds derived from rolling buffers, ensuring advice evolves with the agent's confidence. A commitment-cooldown strategy with a stochastic early-stop heuristic regulates the duration and frequency of guidance, exposing the agent to coherent maneuvers without exhausting the advice budget. Expert and agent experiences are combined in a shared replay buffer within an off-policy implicit quantile network (IQN) backbone, enabling efficient reuse of expert trajectories. Experiments in CARLA show that our method outperforms the IQN baseline, improving success by 5-7% and reducing failures, demonstrating that risk-sensitive uncertainty coupled with regulated expert integration enables safer and more efficient exploration for sensor-based RL policy learning in unsignalized intersection navigation.

Uncertainty-Aware and Temporally Regulated Expert Advice in Reinforcement Learning for Autonomous Driving

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理