BAPR: Bayesian amnesic piecewise-robust reinforcement learning for non-stationary continuous control

作者: Yifan Zhang, Liang Zheng

分类: cs.LG

发布日期: 2026-05-15

💡 一句话要点

提出BAPR，结合贝叶斯在线变化检测与鲁棒集成强化学习，解决非平稳连续控制问题。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 鲁棒控制 非平稳环境 贝叶斯在线变化检测 形式化验证

📋 核心要点

传统鲁棒强化学习在分段平稳环境中面临保守性和适应性的两难，全局保守损失性能，局部自适应易崩溃。
BAPR结合贝叶斯在线变化检测（BOCD）与鲁棒集成强化学习，实现自适应保守策略，提升切换后的恢复能力。
论文形式化验证了BAPR算子的收缩性，并推导了误差预算，同时通过实验验证了其在非平稳环境中的有效性。

📝 摘要（中文）

真实世界的控制系统经常在分段平稳条件下运行，即动力学在经历突变之前保持稳定一段时间。标准的鲁棒强化学习方法面临一个根本困境：全局保守策略在稳定期间浪费性能，而局部自适应策略在未检测到状态变化时存在灾难性失败的风险。我们提出了BAPR（Bayesian Amnesic Piecewise-Robust SAC），它将贝叶斯在线变化检测（BOCD）与鲁棒集成强化学习相结合。BAPR算子是模式条件贝尔曼算子的凸组合，其权重由冻结的信念分布决定，是一个γ-收缩。一个补充的反例，在Lean 4中经过机器验证，建立了一个清晰的边界：当信念依赖于Q函数时，收缩因子变为γ+λΔ（其中Δ是模式奖励差距），并且收缩恰好在γ+λΔ≥1时失败。我们为抽象算子推导出一个分量式的形式误差预算——每个分量都经过机器验证——限制了切换后的恢复；该预算适用于抽象的模式混合算子，并且仅通过冻结参数的设计直觉继承到已实现的共享评论家算法。所有结果都经过形式验证，没有sorry（跨越3个Lean 4文件，共1,145行，22个机器验证的定理）。BOCD驱动一种自适应保守机制：策略在检测到变化点后变得最大程度的保守，并随着信心的增长而平滑地放松，检测延迟为O(log(1/δ))。通过RMDM损失训练的上下文条件模块从模拟器提供的训练时模式ID提供模式感知表示，并且在部署时不需要模式标签。

🔬 方法详解

问题定义：论文旨在解决非平稳连续控制问题，即控制系统在分段平稳环境中运行时，动力学可能发生突变。现有鲁棒强化学习方法要么过于保守，在稳定阶段牺牲性能；要么过于激进，在状态切换时容易崩溃。因此，如何在保证鲁棒性的同时，提高在稳定阶段的性能，是本论文要解决的核心问题。

核心思路：论文的核心思路是结合贝叶斯在线变化检测（BOCD）和鲁棒集成强化学习，构建一个自适应的保守机制。BOCD用于在线检测环境的变化，并根据检测结果调整策略的保守程度。在检测到变化后，策略变得更加保守，以避免崩溃；随着对环境的信心增加，策略逐渐放松，以提高性能。这种自适应的保守机制能够在保证鲁棒性的同时，提高在稳定阶段的性能。

技术框架：BAPR的整体框架包括以下几个主要模块：1) 贝叶斯在线变化检测（BOCD）：用于在线检测环境的变化，并输出一个信念分布，表示当前环境处于不同模式的概率。2) 鲁棒集成强化学习：使用集成的方法来提高策略的鲁棒性，例如SAC。3) BAPR算子：将BOCD的信念分布与鲁棒集成强化学习相结合，构建一个自适应的贝尔曼算子。该算子是模式条件贝尔曼算子的凸组合，其权重由信念分布决定。4) 上下文条件模块：利用RMDM损失函数训练一个上下文条件模块，该模块可以从模拟器提供的模式ID中学习到模式感知的表示，并在部署时无需模式标签。

关键创新：论文的关键创新在于提出了BAPR算子，该算子能够根据环境的变化自适应地调整策略的保守程度。BAPR算子将BOCD的信念分布与鲁棒集成强化学习相结合，构建了一个模式混合的贝尔曼算子。此外，论文还对BAPR算子的收缩性进行了形式化验证，并推导了误差预算，保证了算法的理论可靠性。

关键设计：BAPR的关键设计包括：1) 使用BOCD进行在线变化检测，并输出信念分布。2) 使用SAC作为鲁棒集成强化学习的基线算法。3) 构建BAPR算子，将BOCD的信念分布与SAC相结合。4) 使用RMDM损失函数训练上下文条件模块，以学习模式感知的表示。5) 对BAPR算子的收缩性进行形式化验证，并推导误差预算。

🖼️ 关键图片

📊 实验亮点

论文通过实验验证了BAPR算法在非平稳环境中的有效性。实验结果表明，BAPR算法能够显著提高控制系统在环境变化时的鲁棒性和适应性，并优于传统的鲁棒强化学习算法。此外，论文还对BAPR算子的收缩性进行了形式化验证，并推导了误差预算，保证了算法的理论可靠性。

🎯 应用场景

BAPR算法适用于需要在非平稳环境中运行的控制系统，例如机器人导航、自动驾驶、金融交易等。该算法能够提高控制系统在环境变化时的鲁棒性和适应性，降低系统崩溃的风险，具有重要的实际应用价值。未来，可以将BAPR算法与其他强化学习算法相结合，进一步提高其性能和适用范围。

📄 摘要（原文）

Real-world control systems frequently operate under \emph{piecewise stationary} conditions, where dynamics remain stable for extended periods before undergoing abrupt regime changes. Standard robust RL methods face a fundamental dilemma: a globally conservative policy wastes performance during stable periods, while a locally adaptive policy risks catastrophic failure when the regime changes undetected. We propose \textbf{BAPR} (Bayesian Amnesic Piecewise-Robust SAC), which unifies Bayesian Online Change Detection (BOCD) with robust ensemble RL. The BAPR operator -- a convex combination of mode-conditional Bellman operators weighted by a frozen belief distribution -- is a $γ$-contraction. A complementary counterexample, machine-verified in Lean~4, establishes a \emph{sharp boundary}: when beliefs depend on the Q-function, the contraction factor becomes $γ+ λΔ$ (where $Δ$ is the mode reward gap), and contraction fails exactly when $γ+ λΔ\geq 1$. We derive a \emph{component-wise} formal error budget for the abstract operator -- every component machine-verified -- bounding post-switch recovery; the budget applies to the abstract mode-mixture operator and inherits to the implemented shared-critic algorithm only through the frozen-parameter design intuition. All results are formally verified with no \texttt{sorry} (1,145 lines across 3 Lean~4 files, 22 machine-verified theorems). BOCD drives an adaptive conservatism mechanism: the policy becomes maximally conservative after detected change-points and smoothly relaxes as confidence grows, with detection delay $O(\log(1/δ))$. A context-conditioning module trained via RMDM loss provides mode-aware representations from simulator-provided mode IDs at training time and requires no mode labels at deployment.

BAPR: Bayesian amnesic piecewise-robust reinforcement learning for non-stationary continuous control

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理