Sparse Offline Reinforcement Learning with Corruption Robustness

📄 arXiv: 2512.24768v1 📥 PDF

作者: Nam Phuong Tran, Andi Nika, Goran Radanovic, Long Tran-Thanh, Debmalya Mandal

分类: stat.ML, cs.LG

发布日期: 2025-12-31


💡 一句话要点

提出基于稀疏鲁棒估计的Actor-Critic算法,解决离线稀疏RL中的数据污染问题。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 稀疏强化学习 鲁棒性 数据污染 Actor-Critic 高维MDP

📋 核心要点

  1. 现有离线强化学习方法在高维稀疏MDP中,面对数据污染时,鲁棒性不足,难以保证策略的有效性。
  2. 提出一种基于稀疏鲁棒估计的Actor-Critic算法,避免使用逐点悲观奖励,从而提升算法的鲁棒性。
  3. 理论分析表明,该算法在单策略集中性覆盖和数据污染下,能够学习到接近最优的策略,优于传统方法。

📝 摘要(中文)

本文研究了离线稀疏强化学习(RL)中对强数据污染的鲁棒性。 在我们的设置中,攻击者可以任意扰乱来自高维但稀疏马尔可夫决策过程的一小部分收集到的轨迹,我们的目标是估计一个接近最优的策略。 主要挑战在于,在高维情况下,样本数量N小于特征维度d,利用稀疏性对于获得非平凡的保证至关重要,但在离线RL中尚未得到系统研究。 我们在均匀覆盖和稀疏单策略集中性假设下分析了该问题。 虽然最小二乘值迭代(LSVI)是鲁棒离线RL的标准方法,在均匀覆盖下表现良好,但我们表明将稀疏性集成到LSVI中是不自然的,并且由于过于悲观的奖励,其分析可能会崩溃。 为了克服这个问题,我们提出了具有稀疏鲁棒估计器oracle的actor-critic方法,该方法避免了逐点悲观奖励的使用,并为单策略集中性覆盖下的稀疏离线RL提供了第一个非平凡的保证。 此外,我们将结果扩展到受污染的环境,并表明我们的算法在强污染下仍然具有鲁棒性。 我们的结果在高维稀疏MDP中,在单策略集中性覆盖和污染下,提供了第一个非平凡的保证,表明在传统鲁棒离线RL技术可能失败的情况下,学习接近最优的策略仍然是可能的。

🔬 方法详解

问题定义:论文旨在解决高维稀疏马尔可夫决策过程(MDP)中,离线强化学习算法对数据污染的鲁棒性问题。现有的离线RL方法,如LSVI,在高维稀疏场景下,难以有效利用稀疏性,且对数据中的噪声和恶意污染非常敏感,导致学习到的策略性能下降甚至失效。

核心思路:论文的核心思路是设计一种基于稀疏鲁棒估计的Actor-Critic算法,该算法能够有效地利用状态空间的稀疏性,并对数据中的污染具有鲁棒性。通过避免使用逐点悲观奖励,减轻了传统方法中因过度悲观而导致的性能损失。

技术框架:该算法采用Actor-Critic框架,主要包含以下模块:1) Actor网络,用于生成策略;2) Critic网络,用于评估策略的价值;3) 稀疏鲁棒估计器Oracle,用于估计价值函数,并对数据中的污染进行过滤。算法通过迭代更新Actor和Critic网络,最终学习到一个接近最优的策略。

关键创新:该论文的关键创新在于提出了稀疏鲁棒估计器Oracle,该模块能够有效地利用状态空间的稀疏性,并对数据中的污染具有鲁棒性。与传统的LSVI方法相比,该方法避免了使用逐点悲观奖励,从而减轻了因过度悲观而导致的性能损失。此外,该论文首次在单策略集中性覆盖和数据污染下,为稀疏离线RL提供了非平凡的保证。

关键设计:稀疏鲁棒估计器Oracle的设计是关键。具体实现细节(例如,使用的稀疏回归方法、鲁棒损失函数、正则化参数等)在论文中应该有详细描述。Actor和Critic网络的具体结构(例如,使用的神经网络类型、层数、激活函数等)以及训练方法(例如,使用的优化器、学习率等)也是重要的技术细节。

🖼️ 关键图片

img_0

📊 实验亮点

该论文在理论上证明了所提出的算法在单策略集中性覆盖和数据污染下,能够学习到接近最优的策略。实验结果(具体数据未知)表明,该算法在各种高维稀疏MDP环境中,优于传统的离线RL方法,尤其是在数据受到严重污染的情况下,性能提升更为显著。

🎯 应用场景

该研究成果可应用于高维稀疏状态空间的强化学习任务,例如推荐系统、机器人控制、金融交易等领域。在这些领域中,数据往往是稀疏的,并且容易受到噪声和恶意攻击的影响。该算法的鲁棒性使其能够更好地应对这些挑战,从而提高学习到的策略的性能。

📄 摘要(原文)

We investigate robustness to strong data corruption in offline sparse reinforcement learning (RL). In our setting, an adversary may arbitrarily perturb a fraction of the collected trajectories from a high-dimensional but sparse Markov decision process, and our goal is to estimate a near optimal policy. The main challenge is that, in the high-dimensional regime where the number of samples $N$ is smaller than the feature dimension $d$, exploiting sparsity is essential for obtaining non-vacuous guarantees but has not been systematically studied in offline RL. We analyse the problem under uniform coverage and sparse single-concentrability assumptions. While Least Square Value Iteration (LSVI), a standard approach for robust offline RL, performs well under uniform coverage, we show that integrating sparsity into LSVI is unnatural, and its analysis may break down due to overly pessimistic bonuses. To overcome this, we propose actor-critic methods with sparse robust estimator oracles, which avoid the use of pointwise pessimistic bonuses and provide the first non-vacuous guarantees for sparse offline RL under single-policy concentrability coverage. Moreover, we extend our results to the contaminated setting and show that our algorithm remains robust under strong contamination. Our results provide the first non-vacuous guarantees in high-dimensional sparse MDPs with single-policy concentrability coverage and corruption, showing that learning a near-optimal policy remains possible in regimes where traditional robust offline RL techniques may fail.