SAC Flow: Sample-Efficient Reinforcement Learning of Flow-Based Policies via Velocity-Reparameterized Sequential Modeling
作者: Yixian Zhang, Shu'ang Yu, Tonghe Zhang, Mo Guang, Haojia Hui, Kaiwen Long, Yu Wang, Chao Yu, Wenbo Ding
分类: cs.RO, cs.LG
发布日期: 2025-09-30 (更新: 2025-10-26)
💡 一句话要点
提出SAC Flow算法,通过速度重参数化序列建模实现Flow-Based策略高效强化学习
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 流模型 连续控制 机器人操作 序列建模
📋 核心要点
- 基于流的策略在离线强化学习中训练困难,主要挑战在于多步动作采样导致的梯度不稳定问题。
- 论文通过速度重参数化,将流展开等价于残差循环计算,并借鉴现代序列模型设计了Flow-G和Flow-T两种稳定架构。
- 提出的SAC Flow算法在连续控制和机器人操作任务上取得了SOTA性能,无需额外的策略蒸馏等技巧。
📝 摘要(中文)
本文研究了使用off-policy强化学习训练基于流的策略时,由于多步动作采样过程中的梯度问题而导致的不稳定性。研究发现,流的展开在代数上等价于残差循环计算,使其容易受到与RNN相同的梯度消失和爆炸的影响。为了解决这个问题,本文利用现代序列模型的原理对速度网络进行重参数化,引入了两种稳定的架构:Flow-G(结合门控速度)和Flow-T(利用解码速度)。然后,开发了一种基于SAC的实用算法,通过噪声增强的展开,促进这些策略的直接端到端训练。该方法支持从头开始和离线到在线的学习,并在连续控制和机器人操作基准测试中实现了最先进的性能,无需策略蒸馏或替代目标等常见方法。
🔬 方法详解
问题定义:现有的基于流的策略在离线强化学习中训练时,由于多步动作采样过程中的梯度问题,训练过程非常不稳定。这种不稳定性源于流的展开在代数上等价于残差循环计算,因此容易受到与RNN相同的梯度消失和梯度爆炸的影响。现有的解决方法通常需要策略蒸馏或替代目标等技巧,增加了训练的复杂性。
核心思路:论文的核心思路是通过对速度网络进行重参数化,借鉴现代序列模型的思想,设计出更稳定的网络架构。具体来说,论文将流的展开视为一个残差循环计算过程,并利用门控机制和解码速度等技术来缓解梯度消失和梯度爆炸问题。通过这种方式,可以实现对基于流的策略的直接端到端训练,避免了额外的策略蒸馏或替代目标。
技术框架:整体框架基于Soft Actor-Critic (SAC) 算法,并在此基础上进行了改进。主要包括以下几个模块:1) 速度网络:使用重参数化的速度网络(Flow-G或Flow-T)来生成动作;2) 噪声增强的展开:在流的展开过程中引入噪声,以提高训练的稳定性;3) SAC损失函数:使用标准的SAC损失函数来训练策略和价值函数。
关键创新:论文最重要的技术创新点在于对速度网络的重参数化,以及由此产生的Flow-G和Flow-T两种稳定架构。这种重参数化借鉴了现代序列模型的思想,有效地缓解了梯度消失和梯度爆炸问题,使得可以直接端到端地训练基于流的策略。与现有方法相比,该方法无需策略蒸馏或替代目标,简化了训练流程。
关键设计:Flow-G架构使用门控机制来控制速度的更新,类似于GRU或LSTM中的门控单元。Flow-T架构则使用一个解码器网络来解码速度,从而避免了直接的循环依赖。在训练过程中,论文使用了噪声增强的展开,即在流的展开过程中引入随机噪声,以提高训练的鲁棒性。具体的参数设置和损失函数与标准的SAC算法类似,但针对Flow-G和Flow-T架构进行了微调。
📊 实验亮点
实验结果表明,提出的SAC Flow算法在多个连续控制和机器人操作基准测试中取得了最先进的性能。例如,在某些任务上,SAC Flow的性能超过了现有的SOTA算法,并且无需策略蒸馏或替代目标等技巧。此外,实验还验证了Flow-G和Flow-T两种架构的有效性,以及噪声增强展开对训练稳定性的提升。
🎯 应用场景
该研究成果可应用于各种需要复杂策略的连续控制和机器人操作任务中,例如机器人抓取、导航、装配等。通过提高策略训练的稳定性和效率,可以降低机器人开发的成本和时间,并提高机器人的智能化水平。此外,该方法还可以应用于其他需要序列建模的强化学习任务中。
📄 摘要(原文)
Training expressive flow-based policies with off-policy reinforcement learning is notoriously unstable due to gradient pathologies in the multi-step action sampling process. We trace this instability to a fundamental connection: the flow rollout is algebraically equivalent to a residual recurrent computation, making it susceptible to the same vanishing and exploding gradients as RNNs. To address this, we reparameterize the velocity network using principles from modern sequential models, introducing two stable architectures: Flow-G, which incorporates a gated velocity, and Flow-T, which utilizes a decoded velocity. We then develop a practical SAC-based algorithm, enabled by a noise-augmented rollout, that facilitates direct end-to-end training of these policies. Our approach supports both from-scratch and offline-to-online learning and achieves state-of-the-art performance on continuous control and robotic manipulation benchmarks, eliminating the need for common workarounds like policy distillation or surrogate objectives.