BAPR: Bayesian amnesic piecewise-robust reinforcement learning for non-stationary continuous control
作者: Yifan Zhang, Liang Zheng
分类: cs.LG
发布日期: 2026-05-15
💡 一句话要点
提出BAPR,结合贝叶斯在线变化检测与鲁棒集成强化学习,解决非平稳连续控制问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 鲁棒控制 非平稳环境 贝叶斯在线变化检测 形式化验证
📋 核心要点
- 传统鲁棒强化学习在分段平稳环境中面临保守性和适应性的两难,全局保守损失性能,局部自适应易崩溃。
- BAPR结合贝叶斯在线变化检测(BOCD)与鲁棒集成强化学习,实现自适应保守策略,提升切换后的恢复能力。
- 论文形式化验证了BAPR算子的收缩性,并推导了误差预算,同时通过实验验证了其在非平稳环境中的有效性。
📝 摘要(中文)
真实世界的控制系统经常在分段平稳条件下运行,即动力学在经历突变之前保持稳定一段时间。标准的鲁棒强化学习方法面临一个根本困境:全局保守策略在稳定期间浪费性能,而局部自适应策略在未检测到状态变化时存在灾难性失败的风险。我们提出了BAPR(Bayesian Amnesic Piecewise-Robust SAC),它将贝叶斯在线变化检测(BOCD)与鲁棒集成强化学习相结合。BAPR算子是模式条件贝尔曼算子的凸组合,其权重由冻结的信念分布决定,是一个γ-收缩。一个补充的反例,在Lean 4中经过机器验证,建立了一个清晰的边界:当信念依赖于Q函数时,收缩因子变为γ+λΔ(其中Δ是模式奖励差距),并且收缩恰好在γ+λΔ≥1时失败。我们为抽象算子推导出一个分量式的形式误差预算——每个分量都经过机器验证——限制了切换后的恢复;该预算适用于抽象的模式混合算子,并且仅通过冻结参数的设计直觉继承到已实现的共享评论家算法。所有结果都经过形式验证,没有sorry(跨越3个Lean 4文件,共1,145行,22个机器验证的定理)。BOCD驱动一种自适应保守机制:策略在检测到变化点后变得最大程度的保守,并随着信心的增长而平滑地放松,检测延迟为O(log(1/δ))。通过RMDM损失训练的上下文条件模块从模拟器提供的训练时模式ID提供模式感知表示,并且在部署时不需要模式标签。
🔬 方法详解
问题定义:论文旨在解决非平稳连续控制问题,即控制系统在分段平稳环境中运行时,动力学可能发生突变。现有鲁棒强化学习方法要么过于保守,在稳定阶段牺牲性能;要么过于激进,在状态切换时容易崩溃。因此,如何在保证鲁棒性的同时,提高在稳定阶段的性能,是本论文要解决的核心问题。
核心思路:论文的核心思路是结合贝叶斯在线变化检测(BOCD)和鲁棒集成强化学习,构建一个自适应的保守机制。BOCD用于在线检测环境的变化,并根据检测结果调整策略的保守程度。在检测到变化后,策略变得更加保守,以避免崩溃;随着对环境的信心增加,策略逐渐放松,以提高性能。这种自适应的保守机制能够在保证鲁棒性的同时,提高在稳定阶段的性能。
技术框架:BAPR的整体框架包括以下几个主要模块:1) 贝叶斯在线变化检测(BOCD):用于在线检测环境的变化,并输出一个信念分布,表示当前环境处于不同模式的概率。2) 鲁棒集成强化学习:使用集成的方法来提高策略的鲁棒性,例如SAC。3) BAPR算子:将BOCD的信念分布与鲁棒集成强化学习相结合,构建一个自适应的贝尔曼算子。该算子是模式条件贝尔曼算子的凸组合,其权重由信念分布决定。4) 上下文条件模块:利用RMDM损失函数训练一个上下文条件模块,该模块可以从模拟器提供的模式ID中学习到模式感知的表示,并在部署时无需模式标签。
关键创新:论文的关键创新在于提出了BAPR算子,该算子能够根据环境的变化自适应地调整策略的保守程度。BAPR算子将BOCD的信念分布与鲁棒集成强化学习相结合,构建了一个模式混合的贝尔曼算子。此外,论文还对BAPR算子的收缩性进行了形式化验证,并推导了误差预算,保证了算法的理论可靠性。
关键设计:BAPR的关键设计包括:1) 使用BOCD进行在线变化检测,并输出信念分布。2) 使用SAC作为鲁棒集成强化学习的基线算法。3) 构建BAPR算子,将BOCD的信念分布与SAC相结合。4) 使用RMDM损失函数训练上下文条件模块,以学习模式感知的表示。5) 对BAPR算子的收缩性进行形式化验证,并推导误差预算。
🖼️ 关键图片
📊 实验亮点
论文通过实验验证了BAPR算法在非平稳环境中的有效性。实验结果表明,BAPR算法能够显著提高控制系统在环境变化时的鲁棒性和适应性,并优于传统的鲁棒强化学习算法。此外,论文还对BAPR算子的收缩性进行了形式化验证,并推导了误差预算,保证了算法的理论可靠性。
🎯 应用场景
BAPR算法适用于需要在非平稳环境中运行的控制系统,例如机器人导航、自动驾驶、金融交易等。该算法能够提高控制系统在环境变化时的鲁棒性和适应性,降低系统崩溃的风险,具有重要的实际应用价值。未来,可以将BAPR算法与其他强化学习算法相结合,进一步提高其性能和适用范围。
📄 摘要(原文)
Real-world control systems frequently operate under \emph{piecewise stationary} conditions, where dynamics remain stable for extended periods before undergoing abrupt regime changes. Standard robust RL methods face a fundamental dilemma: a globally conservative policy wastes performance during stable periods, while a locally adaptive policy risks catastrophic failure when the regime changes undetected. We propose \textbf{BAPR} (Bayesian Amnesic Piecewise-Robust SAC), which unifies Bayesian Online Change Detection (BOCD) with robust ensemble RL. The BAPR operator -- a convex combination of mode-conditional Bellman operators weighted by a frozen belief distribution -- is a $γ$-contraction. A complementary counterexample, machine-verified in Lean~4, establishes a \emph{sharp boundary}: when beliefs depend on the Q-function, the contraction factor becomes $γ+ λΔ$ (where $Δ$ is the mode reward gap), and contraction fails exactly when $γ+ λΔ\geq 1$. We derive a \emph{component-wise} formal error budget for the abstract operator -- every component machine-verified -- bounding post-switch recovery; the budget applies to the abstract mode-mixture operator and inherits to the implemented shared-critic algorithm only through the frozen-parameter design intuition. All results are formally verified with no \texttt{sorry} (1,145 lines across 3 Lean~4 files, 22 machine-verified theorems). BOCD drives an adaptive conservatism mechanism: the policy becomes maximally conservative after detected change-points and smoothly relaxes as confidence grows, with detection delay $O(\log(1/δ))$. A context-conditioning module trained via RMDM loss provides mode-aware representations from simulator-provided mode IDs at training time and requires no mode labels at deployment.