EXPO: Stable Reinforcement Learning with Expressive Policies

📄 arXiv: 2507.07986v2 📥 PDF

作者: Perry Dong, Qiyang Li, Dorsa Sadigh, Chelsea Finn

分类: cs.LG, cs.AI

发布日期: 2025-07-10 (更新: 2025-07-15)

备注: corrected typo, formatting, added experiments


💡 一句话要点

EXPO:通过可表达策略实现稳定的强化学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 强化学习 离线数据 策略优化 模仿学习 价值函数 扩散模型 流匹配模型

📋 核心要点

  1. 在线强化学习训练可表达策略面临价值函数优化不稳定的挑战,因为策略参数与动作之间的梯度传播困难。
  2. EXPO算法通过构建即时RL策略来最大化Q值,避免直接优化价值函数,从而实现更稳定的训练。
  3. 实验表明,EXPO在样本效率上优于现有方法2-3倍,尤其是在微调预训练策略和利用离线数据进行在线学习时。

📝 摘要(中文)

本文研究了在给定离线数据集的情况下,使用在线强化学习(RL)训练和微调可表达策略的问题。使用在线RL训练可表达策略类带来了一个独特的挑战,即稳定的价值最大化。与在线RL中常用的较简单的Gaussian策略不同,诸如扩散和流匹配策略等可表达策略由一个长的去噪链参数化,这阻碍了从动作到策略参数的稳定梯度传播,尤其是在针对某些价值函数进行优化时。我们的关键见解是,可以通过避免直接对具有可表达策略的价值进行优化,而是构建一个即时RL策略来最大化Q值,从而解决稳定的价值最大化问题。我们提出了表达策略优化(EXPO),这是一种样本高效的在线RL算法,它利用即时策略来最大化价值,该策略具有两个参数化策略:一个使用稳定模仿学习目标训练的较大的可表达基础策略,以及一个轻量级的Gaussian编辑策略,该策略将从基础策略采样的动作编辑为更高的价值分布。即时策略使用学习到的编辑策略来优化来自基础策略的动作,并从基础动作和编辑后的动作中选择价值最大化的动作,用于采样和时序差分(TD)备份。我们的方法在微调给定离线数据的预训练策略以及利用离线数据进行在线训练的设置中,平均比先前的方法提高了2-3倍的样本效率。

🔬 方法详解

问题定义:论文旨在解决在线强化学习中,使用诸如扩散模型、流匹配模型等复杂策略时,价值函数优化不稳定,导致训练困难的问题。现有方法直接优化价值函数,但由于复杂策略的参数化方式(例如长去噪链),梯度难以稳定地从动作传播到策略参数,从而影响训练效果。

核心思路:论文的核心思路是避免直接使用复杂策略优化价值函数,而是构建一个“即时(on-the-fly)”的RL策略来最大化Q值。这个即时策略不直接学习一个全新的策略,而是基于一个预训练的复杂策略(称为“基础策略”)进行微调,并使用一个轻量级的编辑策略来调整基础策略的输出动作。

技术框架:EXPO算法包含以下主要模块:1) 基础策略:一个预训练的复杂策略,例如扩散模型或流匹配模型,通过离线数据进行模仿学习训练,提供初始的策略行为。2) 编辑策略:一个轻量级的Gaussian策略,用于对基础策略输出的动作进行微调,使其更接近高价值区域。3) 即时策略:该策略从基础策略采样动作,并使用编辑策略对这些动作进行修改。然后,它选择基础策略的原始动作和编辑后的动作中,Q值最高的那个作为最终的动作,用于环境交互和TD备份。

关键创新:EXPO的关键创新在于使用“即时策略”来解耦复杂策略的学习和价值函数的优化。通过预训练一个稳定的基础策略,并使用轻量级的编辑策略进行在线微调,EXPO避免了直接优化复杂策略的价值函数,从而解决了梯度传播不稳定问题。与现有方法相比,EXPO不是直接学习一个复杂的策略,而是学习如何有效地利用和改进一个已有的策略。

关键设计:EXPO的关键设计包括:1) 使用模仿学习预训练基础策略,保证策略的稳定性。2) 使用轻量级的Gaussian编辑策略,降低优化难度。3) 使用Q值作为选择标准,在基础策略和编辑后的动作之间进行选择,保证策略能够朝着高价值区域探索。4) 损失函数主要包括模仿学习损失(用于预训练基础策略)和TD误差(用于更新编辑策略)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EXPO算法在样本效率上显著优于现有方法。在微调预训练策略和利用离线数据进行在线学习的设置中,EXPO平均比现有方法提高了2-3倍的样本效率。这表明EXPO能够更有效地利用离线数据和在线交互,学习到更好的策略。

🎯 应用场景

EXPO算法可应用于机器人控制、游戏AI、自动驾驶等领域,尤其是在需要利用离线数据进行策略初始化,并在线进行微调的场景下。该方法能够更有效地利用复杂策略的表达能力,提升强化学习的性能和稳定性,降低训练成本,加速智能系统的开发和部署。

📄 摘要(原文)

We study the problem of training and fine-tuning expressive policies with online reinforcement learning (RL) given an offline dataset. Training expressive policy classes with online RL present a unique challenge of stable value maximization. Unlike simpler Gaussian policies commonly used in online RL, expressive policies like diffusion and flow-matching policies are parameterized by a long denoising chain, which hinders stable gradient propagation from actions to policy parameters when optimizing against some value function. Our key insight is that we can address stable value maximization by avoiding direct optimization over value with the expressive policy and instead construct an on-the-fly RL policy to maximize Q-value. We propose Expressive Policy Optimization (EXPO), a sample-efficient online RL algorithm that utilizes an on-the-fly policy to maximize value with two parameterized policies -- a larger expressive base policy trained with a stable imitation learning objective and a light-weight Gaussian edit policy that edits the actions sampled from the base policy toward a higher value distribution. The on-the-fly policy optimizes the actions from the base policy with the learned edit policy and chooses the value maximizing action from the base and edited actions for both sampling and temporal-difference (TD) backup. Our approach yields up to 2-3x improvement in sample efficiency on average over prior methods both in the setting of fine-tuning a pretrained policy given offline data and in leveraging offline data to train online.