Robust Offline Reinforcement Learning with Linearly Structured f-Divergence Regularization

📄 arXiv: 2411.18612v2 📥 PDF

作者: Cheng Tang, Zhishuai Liu, Pan Xu

分类: cs.LG, cs.AI, cs.RO, stat.ML

发布日期: 2024-11-27 (更新: 2025-10-30)

备注: 41 pages, 3 figures, 2 tables. Published in Proceedings of the 42nd International Conference on Machine Learning (ICML 2025)

期刊: Proceedings of the 42nd International Conference on Machine Learning, PMLR 267:58842-58882, 2025


💡 一句话要点

提出基于线性结构f-散度正则化的鲁棒离线强化学习方法,提升策略鲁棒性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 鲁棒强化学习 离线强化学习 f-散度正则化 马尔可夫决策过程 线性函数逼近

📋 核心要点

  1. 现有RRMDP方法采用非结构化正则化,易导致策略在不真实的转移下过于保守。
  2. 提出d-矩形线性RRMDP框架,将潜在结构引入转移核和正则化,提升策略鲁棒性。
  3. R2PVI算法在离线强化学习中表现出卓越的计算效率,并学习到更鲁棒的策略。

📝 摘要(中文)

本文提出了一种鲁棒正则化马尔可夫决策过程(RRMDP),旨在通过在值函数中对转移动态添加正则化项,学习对动态转移具有鲁棒性的策略。现有方法大多采用非结构化正则化,可能导致在不真实的转移下产生保守策略。为了解决这一局限性,我们提出了一个新的框架,即$d$-矩形线性RRMDP ($d$-RRMDP),它将潜在结构引入到转移核和正则化中。我们专注于离线强化学习,其中智能体从名义环境中的预收集数据集中学习策略。我们开发了鲁棒正则化悲观值迭代(R2PVI)算法,该算法采用线性函数逼近,用于在具有基于f-散度的转移核正则化项的$d$-RRMDP中进行鲁棒策略学习。我们提供了R2PVI策略的次优性差距的实例相关上界,表明这些界限受到数据集覆盖在鲁棒可容许转移下最优鲁棒策略访问的状态-动作空间的程度的影响。我们建立了信息论下界,以验证我们的算法接近最优。最后,数值实验验证了R2PVI学习鲁棒策略,并且与基线方法相比表现出卓越的计算效率。

🔬 方法详解

问题定义:现有鲁棒强化学习方法,如RRMDP,通常采用非结构化的正则化方式来约束转移动态的不确定性。这种方法的缺点是,它可能导致策略在面对不真实的、过于悲观的转移时变得过于保守,从而影响策略的性能。因此,如何设计更合理的正则化方式,使得策略既能保证鲁棒性,又不会过于保守,是一个重要的挑战。

核心思路:本文的核心思路是在RRMDP框架下,引入线性结构的f-散度正则化。具体来说,作者提出了$d$-矩形线性RRMDP ($d$-RRMDP) 框架,该框架假设转移核和正则化项都具有某种潜在的线性结构。通过这种结构化的假设,可以更精确地建模转移动态的不确定性,从而避免非结构化正则化导致的保守性问题。

技术框架:整体框架基于离线强化学习,智能体从预先收集的数据集中学习策略。主要包含以下几个阶段:1) 数据收集:在名义环境中收集数据集;2) 模型学习:利用数据集学习$d$-RRMDP模型,包括转移核和正则化项;3) 策略优化:使用鲁棒正则化悲观值迭代(R2PVI)算法,在学习到的模型上进行策略优化,得到鲁棒策略。R2PVI算法采用线性函数逼近来处理连续状态空间。

关键创新:最重要的技术创新点在于引入了线性结构的f-散度正则化。与现有方法采用的非结构化正则化相比,这种结构化的正则化方式可以更精确地建模转移动态的不确定性,从而避免策略过于保守。此外,作者还提出了R2PVI算法,该算法能够有效地在$d$-RRMDP框架下学习鲁棒策略。

关键设计:R2PVI算法的关键设计在于如何有效地利用线性函数逼近来处理连续状态空间,以及如何选择合适的f-散度作为正则化项。作者通过理论分析,给出了R2PVI策略的次优性差距的上界,并证明了算法的近最优性。此外,作者还通过数值实验验证了R2PVI算法的有效性。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,R2PVI算法在学习鲁棒策略方面优于基线方法,并且具有更高的计算效率。具体来说,R2PVI算法能够学习到对动力学模型不确定性具有更强鲁棒性的策略,同时计算时间显著减少。作者通过数值实验验证了R2PVI算法在不同环境下的有效性。

🎯 应用场景

该研究成果可应用于安全性要求高的机器人控制、自动驾驶等领域。例如,在自动驾驶中,由于环境变化和传感器噪声,车辆的动力学模型可能存在不确定性。利用该方法,可以学习到对动力学模型不确定性具有鲁棒性的控制策略,从而提高自动驾驶系统的安全性。

📄 摘要(原文)

The Robust Regularized Markov Decision Process (RRMDP) is proposed to learn policies robust to dynamics shifts by adding regularization to the transition dynamics in the value function. Existing methods mostly use unstructured regularization, potentially leading to conservative policies under unrealistic transitions. To address this limitation, we propose a novel framework, the $d$-rectangular linear RRMDP ($d$-RRMDP), which introduces latent structures into both transition kernels and regularization. We focus on offline reinforcement learning, where an agent learns policies from a precollected dataset in the nominal environment. We develop the Robust Regularized Pessimistic Value Iteration (R2PVI) algorithm that employs linear function approximation for robust policy learning in $d$-RRMDPs with $f$-divergence based regularization terms on transition kernels. We provide instance-dependent upper bounds on the suboptimality gap of R2PVI policies, demonstrating that these bounds are influenced by how well the dataset covers state-action spaces visited by the optimal robust policy under robustly admissible transitions. We establish information-theoretic lower bounds to verify that our algorithm is near-optimal. Finally, numerical experiments validate that R2PVI learns robust policies and exhibits superior computational efficiency compared to baseline methods.