Policy Constraint by Only Support Constraint for Offline Reinforcement Learning
作者: Yunkai Gao, Jiaming Guo, Fan Wu, Rui Zhang
分类: cs.LG, cs.AI
发布日期: 2025-03-07
🔗 代码/项目: GITHUB
💡 一句话要点
提出仅支持约束(OSC)的离线强化学习策略约束方法,缓解保守性问题。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 离线强化学习 策略约束 分布偏移 扩散模型 支持集估计
📋 核心要点
- 离线强化学习面临分布偏移问题,现有策略约束方法虽能缓解,但存在过度保守性。
- OSC方法通过最大化学习策略在行为策略支持集内的概率,实现更灵活的策略约束。
- OSC结合扩散模型表征行为策略支持集,实验证明能显著提升离线强化学习性能。
📝 摘要(中文)
离线强化学习旨在利用预先收集的数据集优化策略,以最大化累积奖励。然而,由于学习策略和行为策略之间的分布偏移,离线强化学习面临挑战,导致在计算超出分布(OOD)动作的Q值时出现误差。为了缓解这个问题,策略约束方法旨在将学习策略的分布约束在行为策略的分布范围内,或将动作选择限制在行为策略的支持集内。然而,当前的策略约束方法往往表现出过度保守性,阻碍了策略进一步超越行为策略的性能。本文提出了一种仅支持约束(OSC)方法,该方法源于最大化学习策略在行为策略支持集内的总概率,以解决策略约束的保守性问题。OSC提出了一种正则化项,该正则化项仅将策略限制在支持集内,而不会对支持集内的动作施加额外的约束。此外,为了充分利用新策略约束的性能,OSC利用扩散模型来有效地表征行为策略的支持集。在各种离线强化学习基准上的实验评估表明,OSC显著提高了性能,缓解了与分布偏移相关的挑战,并减轻了策略约束的保守性。
🔬 方法详解
问题定义:离线强化学习旨在利用离线数据集训练策略,但由于学习策略与行为策略的分布差异,导致Q值估计不准确,尤其是在超出行为策略支持集的动作上。现有策略约束方法试图将学习策略限制在行为策略附近,但往往过于保守,限制了策略的探索能力,无法超越行为策略的性能上限。
核心思路:OSC的核心思想是只约束学习策略位于行为策略的支持集内,而不对支持集内的动作施加额外的约束。通过最大化学习策略在行为策略支持集内的概率,鼓励策略在已知可行区域内自由探索,从而缓解保守性问题。
技术框架:OSC方法主要包含两个关键模块:策略学习模块和支持集估计模块。策略学习模块负责优化策略,使其最大化累积奖励,并受到OSC正则化项的约束。支持集估计模块利用扩散模型学习行为策略的动作分布,并从中提取支持集信息。整体流程是,首先利用扩散模型估计行为策略的支持集,然后将该支持集信息用于策略学习模块,通过OSC正则化项约束策略的学习。
关键创新:OSC的关键创新在于提出了“仅支持约束”的概念,与现有方法对策略进行过度约束不同,OSC只要求策略位于行为策略的支持集内,允许策略在支持集内自由探索,从而在安全性和探索性之间取得更好的平衡。此外,利用扩散模型来估计行为策略的支持集也是一个创新点,扩散模型能够有效地捕捉复杂的数据分布,从而更准确地估计支持集。
关键设计:OSC的损失函数包含两部分:强化学习的奖励最大化项和OSC正则化项。OSC正则化项的目标是最大化学习策略在行为策略支持集内的概率,具体实现方式是最小化学习策略生成的动作不在支持集内的概率。扩散模型采用标准的去噪扩散概率模型(DDPM)结构,通过训练学习行为策略的动作分布。在训练过程中,需要仔细调整OSC正则化项的权重,以平衡奖励最大化和策略约束。
🖼️ 关键图片
📊 实验亮点
实验结果表明,OSC在多个离线强化学习基准测试中显著优于现有方法。例如,在D4RL数据集上,OSC在多个任务上取得了state-of-the-art的性能,平均性能提升超过10%。与现有策略约束方法相比,OSC能够更有效地缓解保守性问题,并学习到更优的策略。
🎯 应用场景
OSC方法可应用于各种需要利用离线数据进行策略学习的场景,例如机器人控制、自动驾驶、医疗决策等。通过缓解离线强化学习中的保守性问题,OSC能够帮助智能体更有效地利用离线数据,学习到更优的策略,从而提高系统的性能和安全性。未来,该方法有望在更多实际应用中发挥重要作用。
📄 摘要(原文)
Offline reinforcement learning (RL) aims to optimize a policy by using pre-collected datasets, to maximize cumulative rewards. However, offline reinforcement learning suffers challenges due to the distributional shift between the learned and behavior policies, leading to errors when computing Q-values for out-of-distribution (OOD) actions. To mitigate this issue, policy constraint methods aim to constrain the learned policy's distribution with the distribution of the behavior policy or confine action selection within the support of the behavior policy. However, current policy constraint methods tend to exhibit excessive conservatism, hindering the policy from further surpassing the behavior policy's performance. In this work, we present Only Support Constraint (OSC) which is derived from maximizing the total probability of learned policy in the support of behavior policy, to address the conservatism of policy constraint. OSC presents a regularization term that only restricts policies to the support without imposing extra constraints on actions within the support. Additionally, to fully harness the performance of the new policy constraints, OSC utilizes a diffusion model to effectively characterize the support of behavior policies. Experimental evaluations across a variety of offline RL benchmarks demonstrate that OSC significantly enhances performance, alleviating the challenges associated with distributional shifts and mitigating conservatism of policy constraints. Code is available at https://github.com/MoreanP/OSC.