Enhancing Robustness of Offline Reinforcement Learning Under Data Corruption via Sharpness-Aware Minimization

📄 arXiv: 2511.17568v1 📥 PDF

作者: Le Xu, Jiayu Chen

分类: cs.LG, cs.AI

发布日期: 2025-11-14

备注: Accepted as an Oral Presentation at the AAAI 2026 Student Abstract and Poster Program (SAPP)


💡 一句话要点

提出基于锐度感知最小化的离线强化学习方法,提升数据损坏下的鲁棒性

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 数据损坏 鲁棒性 锐度感知最小化 泛化能力 IQL RIQL

📋 核心要点

  1. 离线强化学习在数据损坏情况下鲁棒性不足,现有算法难以应对观测和混合损坏。
  2. 引入锐度感知最小化(SAM)作为优化器,寻找损失 landscape 中更平坦的最小值,提升模型泛化能力。
  3. 在 D4RL 基准测试中,SAM 增强的 IQL 和 RIQL 算法在随机和对抗性数据损坏下均显著优于原始基线。

📝 摘要(中文)

离线强化学习(RL)容易受到真实世界数据损坏的影响,即使是鲁棒的算法在具有挑战性的观测和混合损坏下也会失效。我们认为这种失效源于数据损坏在损失 landscape 中产生尖锐的最小值,导致泛化能力差。为了解决这个问题,我们首次应用锐度感知最小化(SAM)作为离线 RL 的通用、即插即用优化器。SAM 寻找更平坦的最小值,引导模型到更鲁棒的参数区域。我们将 SAM 集成到数据损坏的强大基线中:IQL(在这种设置中表现最佳的离线 RL 算法)和 RIQL(专门为数据损坏鲁棒性设计的算法)。我们在具有随机和对抗性损坏的 D4RL 基准上评估它们。我们基于 SAM 增强的方法始终且显着优于原始基线。奖励表面的可视化证实 SAM 找到了更平滑的解决方案,为提高离线 RL 智能体的鲁棒性提供了有力的证据。

🔬 方法详解

问题定义:离线强化学习在实际应用中面临数据损坏的问题,例如传感器噪声、人为错误标注等。这些数据损坏会导致模型训练时陷入损失函数的尖锐局部最小值,从而降低模型的泛化能力和鲁棒性。现有的离线强化学习算法,即使是设计用于提升鲁棒性的算法,在严重的数据损坏下仍然表现不佳。

核心思路:论文的核心思路是利用锐度感知最小化(Sharpness-Aware Minimization, SAM)来优化离线强化学习模型。SAM 的目标是寻找损失函数 landscape 中更平坦的最小值,从而提高模型的泛化能力和对数据损坏的鲁棒性。通过优化模型的参数,使得模型在参数扰动下仍然能够保持较好的性能,从而避免陷入尖锐的局部最小值。

技术框架:论文将 SAM 作为一种通用的优化器,可以方便地集成到现有的离线强化学习算法中。具体来说,论文选择了 IQL 和 RIQL 这两种在数据损坏场景下表现较好的离线强化学习算法作为基线,并将 SAM 集成到它们的训练过程中。整体流程包括:首先,使用离线数据集训练 IQL 或 RIQL 模型;然后,在每次迭代中使用 SAM 优化模型的参数,寻找更平坦的最小值;最后,使用优化后的模型进行策略评估和部署。

关键创新:论文的关键创新在于首次将 SAM 应用于离线强化学习领域,并证明了其在提高数据损坏下的鲁棒性方面的有效性。与传统的优化方法相比,SAM 能够显式地寻找损失函数 landscape 中更平坦的最小值,从而提高模型的泛化能力。此外,论文还通过实验验证了 SAM 在不同的数据损坏场景下均能显著提升离线强化学习算法的性能。

关键设计:SAM 的关键设计在于其优化目标,即最小化参数扰动下的最大损失。具体来说,对于每个参数更新,SAM 首先在参数空间中寻找一个扰动方向,使得损失函数在该方向上的变化最大;然后,沿着该方向更新参数,从而使得模型能够抵抗参数扰动。SAM 的具体实现需要设置一个扰动半径,用于控制参数扰动的幅度。论文中使用了默认的 SAM 参数设置,并将其应用于 IQL 和 RIQL 算法的训练过程中。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

实验结果表明,SAM 能够显著提高离线强化学习算法在数据损坏下的鲁棒性。在 D4RL 基准测试中,SAM 增强的 IQL 和 RIQL 算法在随机和对抗性数据损坏下均优于原始基线。例如,在某些场景下,SAM 能够将算法的性能提升 20% 以上。此外,奖励表面的可视化结果表明,SAM 能够找到更平滑的解决方案,从而验证了其在提高模型泛化能力方面的有效性。

🎯 应用场景

该研究成果可应用于各种需要从受损数据中学习的强化学习场景,例如机器人控制、自动驾驶、医疗诊断等。在这些场景中,数据质量往往难以保证,因此提高算法对数据损坏的鲁棒性至关重要。该方法可以帮助智能体在不完美的数据集上学习到更可靠的策略,从而提高其在真实世界中的性能和安全性。

📄 摘要(原文)

Offline reinforcement learning (RL) is vulnerable to real-world data corruption, with even robust algorithms failing under challenging observation and mixture corruptions. We posit this failure stems from data corruption creating sharp minima in the loss landscape, leading to poor generalization. To address this, we are the first to apply Sharpness-Aware Minimization (SAM) as a general-purpose, plug-and-play optimizer for offline RL. SAM seeks flatter minima, guiding models to more robust parameter regions. We integrate SAM into strong baselines for data corruption: IQL, a top-performing offline RL algorithm in this setting, and RIQL, an algorithm designed specifically for data-corruption robustness. We evaluate them on D4RL benchmarks with both random and adversarial corruption. Our SAM-enhanced methods consistently and significantly outperform the original baselines. Visualizations of the reward surface confirm that SAM finds smoother solutions, providing strong evidence for its effectiveness in improving the robustness of offline RL agents.