Doubly Mild Generalization for Offline Reinforcement Learning

📄 arXiv: 2411.07934v2 📥 PDF

作者: Yixiu Mao, Qi Wang, Yun Qu, Yuhang Jiang, Xiangyang Ji

分类: cs.LG, cs.AI

发布日期: 2024-11-12 (更新: 2024-11-13)

备注: Accepted to NeurIPS 2024


💡 一句话要点

提出双重适度泛化(DMG)方法,提升离线强化学习性能。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 泛化 外推误差 价值高估 双重适度泛化 动作选择 价值函数 策略学习

📋 核心要点

  1. 离线强化学习面临外推误差和价值高估问题,现有方法过度或完全避免泛化,限制了性能提升。
  2. 论文提出双重适度泛化(DMG)方法,通过适度动作泛化和适度泛化传播,平衡探索与风险。
  3. 实验表明,DMG在多个任务中取得SOTA性能,并能平滑过渡到在线学习,提升微调效果。

📝 摘要(中文)

离线强化学习(RL)面临外推误差和价值高估问题。从泛化角度看,这是由于价值函数或策略对分布外(OOD)动作的过度泛化造成的。大量研究致力于缓解这种泛化问题,近期的同分布学习方法甚至成功地完全避免了泛化。然而,我们表明,在特定条件下,适度超出数据集的泛化是可信的,并且可以用来提高性能。为了在离线RL中适当地利用泛化,我们提出了双重适度泛化(DMG),包括(i)适度动作泛化和(ii)适度泛化传播。前者指的是选择数据集中邻近的动作来最大化Q值。即便如此,潜在的错误泛化仍然可以通过自举传播、积累和加剧。鉴于此,后者被引入以缓解泛化传播,而不妨碍RL学习信号的传播。理论上,DMG保证在oracle泛化场景下比同分布最优策略有更好的性能。即使在最坏情况的泛化下,DMG仍然可以将价值高估控制在一定水平,并降低性能下限。在实验上,DMG在Gym-MuJoCo运动任务和具有挑战性的AntMaze任务中都取得了最先进的性能。此外,受益于其在泛化方面的灵活性,DMG可以从离线学习无缝过渡到在线学习,并获得强大的在线微调性能。

🔬 方法详解

问题定义:离线强化学习的关键挑战在于如何利用静态数据集学习最优策略,同时避免由于数据分布偏移导致的外推误差和价值高估。现有方法要么过度泛化到未见过的状态-动作对,导致策略不稳定;要么完全避免泛化,限制了策略的探索能力和潜在性能上限。

核心思路:论文的核心思想是控制泛化的程度,即“适度泛化”。作者认为,完全避免泛化会限制策略的性能,而过度泛化则会导致误差累积。因此,论文提出了一种双重适度泛化(DMG)框架,旨在在探索和风险之间取得平衡。

技术框架:DMG框架包含两个主要组成部分:适度动作泛化和适度泛化传播。适度动作泛化通过在数据集附近的动作空间中搜索来选择动作,避免了完全随机的探索,降低了外推风险。适度泛化传播则通过限制价值函数的更新幅度,防止错误泛化信息的过度传播,从而提高学习的稳定性。整体流程是:首先,利用适度动作泛化选择动作;然后,利用该动作与环境交互获得奖励和下一个状态;最后,利用适度泛化传播更新价值函数。

关键创新:DMG的关键创新在于其双重适度泛化的设计。与现有方法相比,DMG不是简单地避免或过度泛化,而是通过控制泛化的范围和传播,实现了更有效的离线学习。适度动作泛化允许策略在一定程度上探索未见过的动作,而适度泛化传播则保证了学习的稳定性。这种双重约束使得DMG能够在离线环境中学习到更优的策略。

关键设计:适度动作泛化通过限制动作的选择范围来实现,例如,可以在数据集中的动作附近设置一个小的扰动范围,只允许策略在该范围内选择动作。适度泛化传播可以通过限制价值函数的更新幅度来实现,例如,可以使用一个小的学习率或者采用一种保守的价值函数更新策略。具体的损失函数和网络结构的选择可以根据具体的任务进行调整,但需要保证能够有效地实现适度泛化的目标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DMG在Gym-MuJoCo和AntMaze等benchmark任务上取得了state-of-the-art的性能。例如,在AntMaze任务中,DMG的性能显著优于其他离线RL算法。此外,DMG还展现出强大的在线微调能力,能够快速适应新的环境,进一步提升性能。

🎯 应用场景

该研究成果可应用于各种需要离线决策的场景,例如医疗诊断、金融交易、自动驾驶等。在这些场景中,通常存在大量的历史数据,但在线交互的成本很高或风险很大。DMG方法可以有效地利用这些离线数据学习最优策略,从而提高决策效率和安全性。此外,DMG的在线微调能力使其能够适应动态变化的环境,具有很强的实用价值。

📄 摘要(原文)

Offline Reinforcement Learning (RL) suffers from the extrapolation error and value overestimation. From a generalization perspective, this issue can be attributed to the over-generalization of value functions or policies towards out-of-distribution (OOD) actions. Significant efforts have been devoted to mitigating such generalization, and recent in-sample learning approaches have further succeeded in entirely eschewing it. Nevertheless, we show that mild generalization beyond the dataset can be trusted and leveraged to improve performance under certain conditions. To appropriately exploit generalization in offline RL, we propose Doubly Mild Generalization (DMG), comprising (i) mild action generalization and (ii) mild generalization propagation. The former refers to selecting actions in a close neighborhood of the dataset to maximize the Q values. Even so, the potential erroneous generalization can still be propagated, accumulated, and exacerbated by bootstrapping. In light of this, the latter concept is introduced to mitigate the generalization propagation without impeding the propagation of RL learning signals. Theoretically, DMG guarantees better performance than the in-sample optimal policy in the oracle generalization scenario. Even under worst-case generalization, DMG can still control value overestimation at a certain level and lower bound the performance. Empirically, DMG achieves state-of-the-art performance across Gym-MuJoCo locomotion tasks and challenging AntMaze tasks. Moreover, benefiting from its flexibility in both generalization aspects, DMG enjoys a seamless transition from offline to online learning and attains strong online fine-tuning performance.