ISEP: Implicit Support Expansion for Offline Reinforcement Learning via Stochastic Policy Optimization

📄 arXiv: 2605.18320v1 📥 PDF

作者: Yifei Chen, Shaoqin Zhu, Xiaoqiang Ji

分类: cs.LG, cs.AI

发布日期: 2026-05-18


💡 一句话要点

ISEP:基于随机策略优化的离线强化学习隐式支持扩展

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 离线强化学习 策略优化 隐式支持扩展 价值函数插值 条件流匹配

📋 核心要点

  1. 离线强化学习受限于行为策略的数据分布,难以探索最优策略。
  2. ISEP通过插值价值函数隐式扩展动作空间,并采用随机策略优化避免模式崩塌。
  3. ISEP-FM使用条件流匹配和无分类器指导,有效捕获插值价值信号,提升性能。

📝 摘要(中文)

离线强化学习方法通常采用严格约束以确保安全性,但这种刚性限制了在行为策略直接支持之外发现最优行为。为了解决这个问题,我们提出了基于随机策略优化的隐式支持扩展(ISEP),它利用在分布内数据和策略样本之间插值的价值函数来隐式地扩展可行动作支持。这种机制“致密化”了高奖励区域,为策略改进创建了一条可导航的路径,同时在理论上保证了有界的价值误差。然而,针对这种扩展的支持进行优化会产生一个多模态的景观,其中标准确定性平均会导致模式崩溃和无效动作。ISEP通过随机动作选择策略来缓解这个问题,通过在保守克隆和乐观扩展信号之间随机交替来优化策略。我们使用条件流匹配(Conditional Flow Matching)实例化了这个框架作为ISEP-FM,利用无分类器指导来有效地捕获插值价值信号。

🔬 方法详解

问题定义:离线强化学习面临着策略受限于离线数据集分布的问题。现有方法通常采用保守策略,避免策略偏离数据集,但这也限制了策略探索更优行为的能力。现有方法的痛点在于如何在保证安全性的前提下,有效地扩展策略的探索空间,从而找到更优的策略。

核心思路:ISEP的核心思路是通过隐式地扩展动作空间的支持集来解决这个问题。具体来说,它通过在离线数据和策略采样之间插值来构建一个价值函数,从而“致密化”高奖励区域,为策略改进创造可导航的路径。这种方法允许策略在一定程度上探索数据集之外的动作,同时通过价值函数的约束来保证安全性。

技术框架:ISEP的整体框架包括以下几个主要模块:1) 价值函数插值:通过在离线数据和策略采样之间进行插值,构建一个混合的价值函数。2) 随机策略优化:使用随机动作选择策略,在保守克隆和乐观扩展信号之间交替,避免模式崩塌。3) 条件流匹配:使用条件流匹配来学习插值价值函数,并利用无分类器指导来提高学习效率。

关键创新:ISEP的关键创新在于它提出了一种隐式扩展动作空间支持集的方法。与现有方法不同,ISEP不是直接约束策略的动作空间,而是通过插值价值函数来引导策略探索。此外,ISEP还采用了随机策略优化方法,避免了在多模态价值函数下的模式崩塌问题。

关键设计:ISEP的关键设计包括:1) 插值价值函数的构建方式,具体如何平衡离线数据和策略采样之间的权重。2) 随机策略优化的具体实现,包括如何选择保守克隆和乐观扩展信号的比例。3) ISEP-FM中条件流匹配的具体网络结构和训练方法,以及无分类器指导的使用方式。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的ISEP方法在多个离线强化学习基准测试中取得了显著的性能提升。实验结果表明,ISEP能够有效地扩展策略的探索空间,找到更优的策略,并且在保证安全性的前提下,超过了现有的离线强化学习方法。具体性能数据和对比基线在论文中详细给出。

🎯 应用场景

ISEP可应用于各种需要离线强化学习的场景,例如机器人控制、自动驾驶、推荐系统和金融交易。它能够利用已有的离线数据,学习到更优的策略,提高系统的性能和安全性。该研究的潜在价值在于能够降低强化学习的试错成本,加速其在实际场景中的应用。

📄 摘要(原文)

Offline reinforcement learning methods typically enforce strict constraints to ensure safety; yet this rigidity often prevents the discovery of optimal behaviors outside the immediate support of the behavior policy. To address this, we propose Implicit Support Expansion via stochastic Policy optimization (ISEP), which leverages a value function interpolated between in-distribution data and policy samples to implicitly expand the feasible action support. This mechanism "densifies" high-reward regions, creating a navigable path for policy improvement while theoretically guaranteeing bounded value error. However, optimizing against this expanded support creates a multimodal landscape where standard deterministic averaging leads to mode collapse and invalid actions. ISEP mitigates this via a stochastic action selection strategy, optimizing the policy by stochastically alternating between conservative cloning and optimistic expansion signals. We instantiate this framework as ISEP-FM using Conditional Flow Matching utilizing classifier-free guidance to effectively capture the interpolated value signal.