RE-SAC: Disentangling aleatoric and epistemic risks in bus fleet control: A stable and robust ensemble DRL approach
作者: Yifan Zhang, Liang Zheng
分类: cs.LG, cs.RO
发布日期: 2026-03-19
💡 一句话要点
RE-SAC:解耦随机与认知不确定性,实现稳定鲁棒的公交车队控制
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 深度强化学习 公交车队控制 不确定性量化 鲁棒优化 软Actor-Critic Q-ensemble 分布外检测
📋 核心要点
- 现有Actor-Critic算法在公交车队控制等不稳定环境中,Q值估计易受随机噪声和数据不足的影响。
- RE-SAC通过IPM权重正则化对冲随机风险,并使用多样化Q集成惩罚认知风险,从而解耦两种不确定性。
- 实验表明,RE-SAC在累积奖励和Q值估计误差方面优于标准SAC,尤其是在罕见状态下表现出更强的鲁棒性。
📝 摘要(中文)
公交车保持控制面临随机交通和乘客需求的挑战。深度强化学习(DRL)展现了潜力,但标准Actor-Critic算法在不稳定环境中存在Q值不稳定的问题。这种不稳定的一个关键原因是将两种不同的不确定性混为一谈:随机不确定性(不可约噪声)和认知不确定性(数据不足)。将它们视为单一风险会导致噪声状态下的价值低估,从而导致策略崩溃。我们提出了一个鲁棒集成软Actor-Critic(RE-SAC)框架来显式地解耦这些不确定性。RE-SAC应用基于积分概率度量(IPM)的权重正则化到Critic网络,以对冲随机风险,为鲁棒贝尔曼算子提供平滑的解析下界,而无需昂贵的内循环扰动。为了解决认知风险,多样化的Q集成惩罚了稀疏覆盖区域中过度自信的价值估计。这种双重机制防止了集成方差将噪声错误地识别为数据缺失,这是我们在消融研究中发现的一种失效模式。在真实的双向公交走廊模拟实验中,RE-SAC实现了最高的累积奖励(约-0.4e6),而vanilla SAC为-0.55e6。Mahalanobis稀有性分析证实,RE-SAC在罕见分布外状态下将Oracle Q值估计误差降低了高达62%(MAE为1647 vs. 4343),证明了在高交通可变性下具有卓越的鲁棒性。
🔬 方法详解
问题定义:论文旨在解决公交车队控制中,由于交通和客流的随机性导致深度强化学习算法Q值估计不稳定,策略容易崩溃的问题。现有方法未能区分随机不确定性(噪声)和认知不确定性(数据不足),导致在噪声状态下价值被低估。
核心思路:论文的核心思路是将随机不确定性和认知不确定性解耦,分别进行处理。通过对冲随机风险,防止价值低估;通过惩罚认知风险,避免过度自信的价值估计。这样可以提高算法在不稳定环境中的鲁棒性和稳定性。
技术框架:RE-SAC框架包含一个Actor网络和多个Critic网络组成的Q-ensemble。Critic网络通过IPM权重正则化来对冲随机风险,Q-ensemble通过多样性正则化来惩罚认知风险。整体训练流程基于Soft Actor-Critic算法,但加入了针对两种不确定性的处理机制。
关键创新:论文的关键创新在于显式地解耦了随机不确定性和认知不确定性,并提出了相应的解决方案。IPM权重正则化和多样化Q-ensemble是两个关键的技术创新点,它们分别针对随机风险和认知风险进行了优化。与现有方法相比,RE-SAC能够更准确地估计Q值,从而提高策略的鲁棒性。
关键设计:IPM权重正则化使用Wasserstein距离来衡量Critic网络输出分布之间的差异,并将其作为正则化项添加到损失函数中。多样化Q-ensemble通过惩罚Q值之间的方差来避免过度自信的估计。具体而言,使用了基于Mahalanobis距离的稀有性分析来识别分布外状态,并对这些状态下的Q值进行惩罚。损失函数结合了SAC的标准损失函数、IPM正则化项和多样性惩罚项。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RE-SAC在模拟公交走廊中实现了最高的累积奖励(约-0.4e6),优于vanilla SAC(-0.55e6)。Mahalanobis稀有性分析显示,RE-SAC在罕见分布外状态下将Oracle Q值估计误差降低了高达62%(MAE为1647 vs. 4343),证明了其在交通高可变性下的卓越鲁棒性。
🎯 应用场景
该研究成果可应用于智能交通系统,特别是公交车队控制和调度优化。通过提高控制策略的鲁棒性和稳定性,可以减少公交延误,提高乘客满意度,并降低运营成本。此外,该方法也可推广到其他具有高随机性和不确定性的控制问题,如机器人导航和资源分配。
📄 摘要(原文)
Bus holding control is challenging due to stochastic traffic and passenger demand. While deep reinforcement learning (DRL) shows promise, standard actor-critic algorithms suffer from Q-value instability in volatile environments. A key source of this instability is the conflation of two distinct uncertainties: aleatoric uncertainty (irreducible noise) and epistemic uncertainty (data insufficiency). Treating these as a single risk leads to value underestimation in noisy states, causing catastrophic policy collapse. We propose a robust ensemble soft actor-critic (RE-SAC) framework to explicitly disentangle these uncertainties. RE-SAC applies Integral Probability Metric (IPM)-based weight regularization to the critic network to hedge against aleatoric risk, providing a smooth analytical lower bound for the robust Bellman operator without expensive inner-loop perturbations. To address epistemic risk, a diversified Q-ensemble penalizes overconfident value estimates in sparsely covered regions. This dual mechanism prevents the ensemble variance from misidentifying noise as a data gap, a failure mode identified in our ablation study. Experiments in a realistic bidirectional bus corridor simulation demonstrate that RE-SAC achieves the highest cumulative reward (approx. -0.4e6) compared to vanilla SAC (-0.55e6). Mahalanobis rareness analysis confirms that RE-SAC reduces Oracle Q-value estimation error by up to 62% in rare out-of-distribution states (MAE of 1647 vs. 4343), demonstrating superior robustness under high traffic variability.