Robust Regularized Policy Iteration under Transition Uncertainty

📄 arXiv: 2603.09344v1 📥 PDF

作者: Hongqiang Lin, Zhenghui Fu, Weihao Tang, Pengfei Wang, Yiding Sun, Qixian Huang, Dongxu Zhang

分类: cs.AI, stat.ML

发布日期: 2026-03-10


💡 一句话要点

提出RRPI算法,通过鲁棒正则化策略迭代解决离线强化学习中的转移不确定性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 鲁棒优化 策略迭代 转移不确定性 KL正则化

📋 核心要点

  1. 离线强化学习受分布偏移影响,策略可能访问到价值估计不可靠的分布外状态-动作对。
  2. 论文将离线RL建模为鲁棒策略优化,通过优化对抗最坏情况动态模型的策略来解决转移不确定性。
  3. 提出的RRPI算法在D4RL基准测试中表现出色,优于现有基线,并展现出鲁棒性,能有效避免不可靠动作。

📝 摘要(中文)

离线强化学习(RL)能够在无需在线探索的情况下实现数据高效和安全的策略学习,但其性能通常会因分布偏移而降低。学习到的策略可能会访问到分布外的状态-动作对,在这些区域,价值估计和学习到的动态模型是不可靠的。为了在一个统一的框架中解决策略诱导的外推和转移不确定性,我们将离线RL建模为鲁棒策略优化,将转移核视为不确定性集合中的决策变量,并针对最坏情况的动态模型优化策略。我们提出了鲁棒正则化策略迭代(RRPI),它用易于处理的KL正则化替代目标来代替难以处理的max-min双层目标,并基于鲁棒正则化贝尔曼算子推导出有效的策略迭代过程。我们通过证明所提出的算子是一个$γ$-收缩,并且迭代更新替代目标可以单调地改进原始鲁棒目标并实现收敛,从而提供理论保证。在D4RL基准测试上的实验表明,RRPI实现了强大的平均性能,在大多数环境中优于包括基于百分位数的PMDB等最新基线,并在其余环境中保持竞争力。此外,RRPI表现出鲁棒的行为。学习到的$Q$-值在具有较高认知不确定性的区域中降低,表明由此产生的策略避免了转移不确定性下不可靠的分布外动作。

🔬 方法详解

问题定义:离线强化学习面临着分布偏移带来的挑战,即学习到的策略可能会访问训练数据中未充分覆盖的状态-动作空间,导致价值估计和动态模型的不准确。现有的方法往往难以同时处理策略外推和转移不确定性,从而影响策略的鲁棒性和泛化能力。

核心思路:论文的核心思路是将离线强化学习问题转化为一个鲁棒优化问题,将转移核视为一个不确定性集合中的决策变量,并优化策略以对抗最坏情况下的动态模型。通过这种方式,可以显式地考虑转移不确定性,并学习到更加鲁棒的策略。同时,利用KL散度正则化来约束策略更新,避免策略过于激进地偏离行为策略。

技术框架:RRPI算法采用策略迭代框架,主要包含以下步骤:1) 初始化策略;2) 策略评估:使用鲁棒正则化贝尔曼算子更新Q函数,该算子考虑了转移不确定性;3) 策略改进:通过最大化鲁棒Q函数来更新策略,并使用KL散度正则化来约束策略更新。该过程迭代进行,直到策略收敛。

关键创新:论文的关键创新在于将离线强化学习问题建模为鲁棒优化问题,并提出了鲁棒正则化贝尔曼算子。该算子能够显式地考虑转移不确定性,并学习到更加鲁棒的策略。此外,使用KL散度正则化来约束策略更新,避免策略过于激进地偏离行为策略,从而提高了算法的稳定性和收敛性。

关键设计:RRPI算法的关键设计包括:1) 使用KL散度正则化来约束策略更新,正则化系数需要根据具体任务进行调整;2) 鲁棒正则化贝尔曼算子的具体形式,需要根据转移不确定性的定义进行设计;3) 策略迭代的停止准则,例如Q函数的变化小于某个阈值。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

RRPI算法在D4RL基准测试中取得了显著的成果,在大多数环境中优于包括PMDB在内的现有基线方法。实验结果表明,RRPI能够有效地降低在具有较高认知不确定性区域的Q值,从而避免选择不可靠的分布外动作。这验证了RRPI算法在处理转移不确定性方面的有效性和鲁棒性。

🎯 应用场景

该研究成果可应用于需要在不确定环境中进行决策的机器人控制、自动驾驶、金融交易等领域。通过学习鲁棒的策略,可以提高系统在面对未知情况时的稳定性和安全性,降低因环境变化导致的性能下降风险。未来,该方法可以进一步扩展到更复杂的环境和任务中,例如多智能体系统和部分可观测环境。

📄 摘要(原文)

Offline reinforcement learning (RL) enables data-efficient and safe policy learning without online exploration, but its performance often degrades under distribution shift. The learned policy may visit out-of-distribution state-action pairs where value estimates and learned dynamics are unreliable. To address policy-induced extrapolation and transition uncertainty in a unified framework, we formulate offline RL as robust policy optimization, treating the transition kernel as a decision variable within an uncertainty set and optimizing the policy against the worst-case dynamics. We propose Robust Regularized Policy Iteration (RRPI), which replaces the intractable max-min bilevel objective with a tractable KL-regularized surrogate and derives an efficient policy iteration procedure based on a robust regularized Bellman operator. We provide theoretical guarantees by showing that the proposed operator is a $γ$-contraction and that iteratively updating the surrogate yields monotonic improvement of the original robust objective with convergence. Experiments on D4RL benchmarks demonstrate that RRPI achieves strong average performance, outperforming recent baselines including percentile-based methods such as PMDB on the majority of environments while remaining competitive on the rest. Moreover, RRPI exhibits robust behavior. The learned $Q$-values decrease in regions with higher epistemic uncertainty, suggesting that the resulting policy avoids unreliable out-of-distribution actions under transition uncertainty.