RE-SAC: Disentangling aleatoric and epistemic risks in bus fleet control: A stable and robust ensemble DRL approach

作者: Yifan Zhang, Liang Zheng

分类: cs.LG, cs.RO

发布日期: 2026-03-19

💡 一句话要点

RE-SAC：解耦随机与认知不确定性，实现稳定鲁棒的公交车队控制

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 深度强化学习 公交车队控制 不确定性量化 鲁棒优化 软Actor-Critic Q-ensemble 分布外检测

📋 核心要点

现有Actor-Critic算法在公交车队控制等不稳定环境中，Q值估计易受随机噪声和数据不足的影响。
RE-SAC通过IPM权重正则化对冲随机风险，并使用多样化Q集成惩罚认知风险，从而解耦两种不确定性。
实验表明，RE-SAC在累积奖励和Q值估计误差方面优于标准SAC，尤其是在罕见状态下表现出更强的鲁棒性。

📝 摘要（中文）

公交车保持控制面临随机交通和乘客需求的挑战。深度强化学习(DRL)展现了潜力，但标准Actor-Critic算法在不稳定环境中存在Q值不稳定的问题。这种不稳定的一个关键原因是将两种不同的不确定性混为一谈：随机不确定性（不可约噪声）和认知不确定性（数据不足）。将它们视为单一风险会导致噪声状态下的价值低估，从而导致策略崩溃。我们提出了一个鲁棒集成软Actor-Critic（RE-SAC）框架来显式地解耦这些不确定性。RE-SAC应用基于积分概率度量（IPM）的权重正则化到Critic网络，以对冲随机风险，为鲁棒贝尔曼算子提供平滑的解析下界，而无需昂贵的内循环扰动。为了解决认知风险，多样化的Q集成惩罚了稀疏覆盖区域中过度自信的价值估计。这种双重机制防止了集成方差将噪声错误地识别为数据缺失，这是我们在消融研究中发现的一种失效模式。在真实的双向公交走廊模拟实验中，RE-SAC实现了最高的累积奖励（约-0.4e6），而vanilla SAC为-0.55e6。Mahalanobis稀有性分析证实，RE-SAC在罕见分布外状态下将Oracle Q值估计误差降低了高达62%（MAE为1647 vs. 4343），证明了在高交通可变性下具有卓越的鲁棒性。

🔬 方法详解

问题定义：论文旨在解决公交车队控制中，由于交通和客流的随机性导致深度强化学习算法Q值估计不稳定，策略容易崩溃的问题。现有方法未能区分随机不确定性（噪声）和认知不确定性（数据不足），导致在噪声状态下价值被低估。

核心思路：论文的核心思路是将随机不确定性和认知不确定性解耦，分别进行处理。通过对冲随机风险，防止价值低估；通过惩罚认知风险，避免过度自信的价值估计。这样可以提高算法在不稳定环境中的鲁棒性和稳定性。

技术框架：RE-SAC框架包含一个Actor网络和多个Critic网络组成的Q-ensemble。Critic网络通过IPM权重正则化来对冲随机风险，Q-ensemble通过多样性正则化来惩罚认知风险。整体训练流程基于Soft Actor-Critic算法，但加入了针对两种不确定性的处理机制。

关键创新：论文的关键创新在于显式地解耦了随机不确定性和认知不确定性，并提出了相应的解决方案。IPM权重正则化和多样化Q-ensemble是两个关键的技术创新点，它们分别针对随机风险和认知风险进行了优化。与现有方法相比，RE-SAC能够更准确地估计Q值，从而提高策略的鲁棒性。

关键设计：IPM权重正则化使用Wasserstein距离来衡量Critic网络输出分布之间的差异，并将其作为正则化项添加到损失函数中。多样化Q-ensemble通过惩罚Q值之间的方差来避免过度自信的估计。具体而言，使用了基于Mahalanobis距离的稀有性分析来识别分布外状态，并对这些状态下的Q值进行惩罚。损失函数结合了SAC的标准损失函数、IPM正则化项和多样性惩罚项。

🖼️ 关键图片

📊 实验亮点

实验结果表明，RE-SAC在模拟公交走廊中实现了最高的累积奖励（约-0.4e6），优于vanilla SAC（-0.55e6）。Mahalanobis稀有性分析显示，RE-SAC在罕见分布外状态下将Oracle Q值估计误差降低了高达62%（MAE为1647 vs. 4343），证明了其在交通高可变性下的卓越鲁棒性。

🎯 应用场景

该研究成果可应用于智能交通系统，特别是公交车队控制和调度优化。通过提高控制策略的鲁棒性和稳定性，可以减少公交延误，提高乘客满意度，并降低运营成本。此外，该方法也可推广到其他具有高随机性和不确定性的控制问题，如机器人导航和资源分配。

📄 摘要（原文）

Bus holding control is challenging due to stochastic traffic and passenger demand. While deep reinforcement learning (DRL) shows promise, standard actor-critic algorithms suffer from Q-value instability in volatile environments. A key source of this instability is the conflation of two distinct uncertainties: aleatoric uncertainty (irreducible noise) and epistemic uncertainty (data insufficiency). Treating these as a single risk leads to value underestimation in noisy states, causing catastrophic policy collapse. We propose a robust ensemble soft actor-critic (RE-SAC) framework to explicitly disentangle these uncertainties. RE-SAC applies Integral Probability Metric (IPM)-based weight regularization to the critic network to hedge against aleatoric risk, providing a smooth analytical lower bound for the robust Bellman operator without expensive inner-loop perturbations. To address epistemic risk, a diversified Q-ensemble penalizes overconfident value estimates in sparsely covered regions. This dual mechanism prevents the ensemble variance from misidentifying noise as a data gap, a failure mode identified in our ablation study. Experiments in a realistic bidirectional bus corridor simulation demonstrate that RE-SAC achieves the highest cumulative reward (approx. -0.4e6) compared to vanilla SAC (-0.55e6). Mahalanobis rareness analysis confirms that RE-SAC reduces Oracle Q-value estimation error by up to 62% in rare out-of-distribution states (MAE of 1647 vs. 4343), demonstrating superior robustness under high traffic variability.

RE-SAC: Disentangling aleatoric and epistemic risks in bus fleet control: A stable and robust ensemble DRL approach

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理