SPAARS: Safer RL Policy Alignment through Abstract Exploration and Refined Exploitation of Action Space

📄 arXiv: 2603.09378v1 📥 PDF

作者: Swaminathan S K, Aritra Hazra

分类: cs.LG, cs.AI, cs.RO

发布日期: 2026-03-10

备注: 9 pages


💡 一句话要点

SPAARS:通过抽象探索和精细动作空间利用实现更安全的强化学习策略对齐

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 离线强化学习 在线微调 课程学习 条件变分自编码器 安全探索 策略对齐 机器人学习 动作空间

📋 核心要点

  1. 现有离线到在线强化学习方法难以在安全探索和充分利用之间取得平衡,尤其是在不偏离离线数据分布的情况下。
  2. SPAARS通过课程学习,先在低维潜在空间安全探索,再无缝过渡到原始动作空间,克服了解码器瓶颈。
  3. 实验表明,SPAARS在多个任务上显著优于现有方法,如SUPE和IQL,并具有更高的样本效率。

📝 摘要(中文)

离线到在线强化学习(RL)为机器人技术提供了一个有前景的范例,它首先在安全的离线演示数据上预训练策略,然后通过在线交互进行微调。然而,一个根本性的挑战仍然存在:如何在不偏离离线数据的行为支持的情况下安全地进行在线探索?虽然最近的方法利用条件变分自编码器(CVAEs)将探索限制在潜在空间内,但它们固有地存在一个利用差距——解码器的重构损失所带来的性能上限。我们引入了SPAARS,一个课程学习框架,它最初将探索限制在低维潜在流形中,以实现样本高效、安全的行为改进,然后无缝地将控制转移到原始动作空间,绕过了解码器瓶颈。SPAARS有两种实例化方式:基于CVAE的变体只需要无序的(s,a)对,不需要轨迹分割;SPAARS-SUPE将SPAARS与OPAL时间技能预训练配对,以获得更强的探索结构,但代价是需要轨迹块。我们使用性能差异引理证明了利用差距的上界,证明了潜在空间策略梯度实现了比原始空间探索更可证明的方差减少,并表明潜在阶段的并发行为克隆直接控制课程过渡的稳定性。在实验中,SPAARS-SUPE在kitchen-mixed-v0上实现了0.825的归一化回报,而SUPE为0.75,样本效率提高了5倍;独立的SPAARS在hopper-medium-v2和walker2d-medium-v2上分别实现了92.7和102.9的归一化回报,超过了IQL基线的66.3和78.3,证实了无序对CVAE实例化的效用。

🔬 方法详解

问题定义:离线到在线强化学习旨在利用离线数据预训练策略,并通过在线交互进行微调。然而,如何在保证安全的前提下进行有效的探索是一个关键问题。现有方法,如基于CVAE的方法,虽然能限制探索范围,但受限于解码器的重构能力,导致性能存在“利用差距”。

核心思路:SPAARS的核心思想是通过课程学习,分阶段进行探索和利用。首先,在低维潜在空间进行安全且高效的探索,避免偏离离线数据分布。然后,逐步将控制权转移到原始动作空间,克服潜在空间带来的性能瓶颈,实现更充分的策略优化。

技术框架:SPAARS包含两个主要阶段:1) 潜在空间探索阶段:利用CVAE将状态-动作对编码到低维潜在空间,并在该空间内进行策略学习,保证安全性。2) 原始动作空间利用阶段:逐步将策略控制权从潜在空间转移到原始动作空间,允许策略直接在原始动作空间进行优化,突破潜在空间的限制。SPAARS有两种实例化方式:一种基于无序(s,a)对,另一种结合了OPAL时间技能预训练,后者需要轨迹片段。

关键创新:SPAARS的关键创新在于其课程学习框架,它能够安全地从离线数据中学习,并在在线微调过程中逐步释放策略的探索能力,避免了传统方法中探索和利用之间的trade-off。此外,通过理论分析,论文证明了潜在空间策略梯度具有更小的方差,以及并发行为克隆对课程过渡稳定性的控制作用。

关键设计:SPAARS使用CVAE来学习状态-动作对的潜在表示。在潜在空间探索阶段,使用行为克隆损失来约束策略,使其接近离线数据分布。在原始动作空间利用阶段,使用一种平滑的过渡机制,逐步增加原始动作空间的控制权重,同时减少潜在空间的控制权重。论文还提出了两种不同的实例化方式,分别适用于不同类型的数据(无序(s,a)对和轨迹片段)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SPAARS在多个强化学习基准测试中取得了显著的性能提升。例如,在kitchen-mixed-v0任务中,SPAARS-SUPE的归一化回报达到0.825,比SUPE提高了5倍的样本效率。在hopper-medium-v2和walker2d-medium-v2任务中,SPAARS的归一化回报分别达到92.7和102.9,超过了IQL基线。

🎯 应用场景

SPAARS具有广泛的应用前景,尤其是在机器人领域。它可以应用于各种需要安全探索和高效学习的机器人任务中,例如自动驾驶、机械臂控制、无人机导航等。通过利用离线数据进行预训练,并结合在线微调,SPAARS可以显著提高机器人的学习效率和安全性,降低开发成本。

📄 摘要(原文)

Offline-to-online reinforcement learning (RL) offers a promising paradigm for robotics by pre-training policies on safe, offline demonstrations and fine-tuning them via online interaction. However, a fundamental challenge remains: how to safely explore online without deviating from the behavioral support of the offline data? While recent methods leverage conditional variational autoencoders (CVAEs) to bound exploration within a latent space, they inherently suffer from an exploitation gap -- a performance ceiling imposed by the decoder's reconstruction loss. We introduce SPAARS, a curriculum learning framework that initially constrains exploration to the low-dimensional latent manifold for sample-efficient, safe behavioral improvement, then seamlessly transfers control to the raw action space, bypassing the decoder bottleneck. SPAARS has two instantiations: the CVAE-based variant requires only unordered (s,a) pairs and no trajectory segmentation; SPAARS-SUPE pairs SPAARS with OPAL temporal skill pretraining for stronger exploration structure at the cost of requiring trajectory chunks. We prove an upper bound on the exploitation gap using the Performance Difference Lemma, establish that latent-space policy gradients achieve provable variance reduction over raw-space exploration, and show that concurrent behavioral cloning during the latent phase directly controls curriculum transition stability. Empirically, SPAARS-SUPE achieves 0.825 normalized return on kitchen-mixed-v0 versus 0.75 for SUPE, with 5x better sample efficiency; standalone SPAARS achieves 92.7 and 102.9 normalized return on hopper-medium-v2 and walker2d-medium-v2 respectively, surpassing IQL baselines of 66.3 and 78.3 respectively, confirming the utility of the unordered-pair CVAE instantiation.