ZAPS-DA: Zero-Phase Action Policy Smoothing with Decoupled Actor for Continuous Control in Reinforcement Learning
作者: Faiq Shamass
分类: cs.RO, cs.LG, eess.SY
发布日期: 2026-05-28
备注: 7 pages, 5 figures, 5 tables. Submitted to IEEE RA-L
💡 一句话要点
ZAPS-DA:零相位动作策略平滑与解耦Actor,解决强化学习连续控制中的抖动问题
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 强化学习 连续控制 动作平滑 零相位滤波 解耦Actor
📋 核心要点
- 传统强化学习连续控制策略存在高频动作抖动,难以直接应用于物理执行器,需要后处理滤波。
- ZAPS-DA框架通过解耦Actor,利用监督模仿学习零相位滤波目标,实现平滑控制,避免了传统方法的相位延迟和超参数调整。
- 实验表明,ZAPS-DA在驾驶模拟器中显著降低了动作抖动,同时保持了任务完成度和奖励水平,甚至在某些情况下有所提升。
📝 摘要(中文)
本文提出ZAPS-DA框架,旨在减少强化学习中连续控制策略部署时产生的高频动作抖动,且几乎不引入相位延迟,无需后处理。ZAPS-DA将一个未经修改的主Actor(通过基础强化学习损失训练)与一个单独的解耦Actor配对,后者通过监督模仿学习训练,模仿回放缓冲区中存储的零相位滤波目标。部署的策略是解耦Actor:一个从当前观察到平滑动作的前馈映射,无需推理时滤波器,也无需动作历史输入——一种我们称之为非因果滤波器因果蒸馏的机制。幅度匹配的MSE损失提供了跨优化器类的零超参数可移植性。在两个驾驶模拟器中使用配对的n=150评估协议,通过Soft Actor-Critic和Savitzky-Golay滤波器验证:在MetaDrive上,ZAPS-DA将转向抖动减少14-21倍,油门抖动减少3-5倍(所有$p < 10^{-4}$,Bonferroni校正),同时匹配任务完成度(p=0.28成功,p=0.31碰撞),奖励成本为6.3%;在一个定制的Webots自适应巡航控制环境中,相同的SG配置产生帕累托改进——奖励平价(p=0.121),转向抖动减少8-45倍,总任务失败率从2.0%降低到0.7%。
🔬 方法详解
问题定义:强化学习训练的连续控制策略在实际部署时,常常出现高频动作抖动,这使得策略难以直接应用于物理执行器。传统的后处理滤波方法虽然可以降低抖动,但会引入相位延迟,影响控制性能。此外,将平滑性惩罚嵌入Actor的损失函数中,会将平滑性与强化学习梯度耦合,导致奖励回归与过度平滑混淆。
核心思路:ZAPS-DA的核心思路是将策略学习与动作平滑解耦。它使用一个未经修改的主Actor进行策略学习,并引入一个独立的解耦Actor专门负责生成平滑的动作。解耦Actor通过模仿学习的方式,学习由零相位滤波器处理过的动作目标,从而实现动作平滑,同时避免了相位延迟和超参数调整。
技术框架:ZAPS-DA框架包含两个Actor:主Actor和解耦Actor。主Actor使用标准的强化学习算法(如SAC)进行训练,负责学习策略。解耦Actor则通过监督学习的方式进行训练,其目标是模仿由零相位滤波器处理过的主Actor的动作。具体流程如下:1) 主Actor与环境交互,并将状态、动作、奖励等信息存储到回放缓冲区中。2) 从回放缓冲区中采样数据,使用零相位滤波器对主Actor的动作进行平滑处理,得到平滑的动作目标。3) 使用平滑的动作目标训练解耦Actor。4) 部署时,直接使用解耦Actor生成平滑的动作。
关键创新:ZAPS-DA的关键创新在于“非因果滤波器因果蒸馏”机制。它利用零相位滤波器(一种非因果滤波器)生成平滑的动作目标,然后使用解耦Actor(一个因果模型)模仿这些目标。这样,就可以在不引入相位延迟的情况下,实现动作平滑。此外,ZAPS-DA还使用幅度匹配的MSE损失,使得该方法具有跨优化器类的零超参数可移植性。
关键设计:ZAPS-DA的关键设计包括:1) 使用独立的解耦Actor进行动作平滑,避免了策略学习与动作平滑的耦合。2) 使用零相位滤波器生成平滑的动作目标,避免了相位延迟。3) 使用幅度匹配的MSE损失,保证了训练的稳定性和可移植性。4) 实验中使用了Savitzky-Golay滤波器作为零相位滤波器,并将其应用于MetaDrive和Webots驾驶模拟器中。
🖼️ 关键图片
📊 实验亮点
ZAPS-DA在MetaDrive和Webots驾驶模拟器上进行了验证。在MetaDrive上,ZAPS-DA将转向抖动降低了14-21倍,油门抖动降低了3-5倍,同时保持了任务完成度,奖励成本仅为6.3%。在Webots自适应巡航控制环境中,ZAPS-DA实现了帕累托改进,奖励平价,转向抖动降低8-45倍,总任务失败率从2.0%降低到0.7%。
🎯 应用场景
ZAPS-DA框架具有广泛的应用前景,尤其是在需要高精度和低延迟的连续控制任务中,例如自动驾驶、机器人控制、飞行器控制等。该方法可以有效降低控制系统的抖动,提高系统的稳定性和可靠性,从而提升用户体验和安全性。未来,该方法可以进一步扩展到其他强化学习算法和控制场景中。
📄 摘要(原文)
Continuous control policies trained with off-policy reinforcement learning frequently exhibit high-frequency action jitter, rendering direct deployment on physical actuators impractical. Post-hoc filtering attenuates jitter but introduces phase lag; embedding smoothness penalties in the actor's loss couples them with the RL gradient and conflates reward regression with over-aggressive smoothing. We present ZAPS-DA, a framework that reduces action jitter at deployment with negligible phase lag and no post-processing. ZAPS-DA pairs an unmodified main actor (trained by the base RL loss) with a separate decoupled actor trained via supervised imitation of zero-phase filtered targets stored in the replay buffer. The deployed policy is the decoupled actor: a feed-forward map from the current observation to a smooth action, with no inference-time filter and no action-history input -- a mechanism we term causal distillation of a non-causal filter. A magnitude-matched MSE loss provides zero-hyperparameter portability across optimizer classes. Validated with Soft Actor-Critic and a Savitzky--Golay filter in two driving simulators using paired n=150 evaluation protocols: on MetaDrive, ZAPS-DA reduces steering jitter by 14--21x and throttle jitter by 3--5x (all $p < 10^{-4}$, Bonferroni-corrected) while matching task-completion (p=0.28 success, p=0.31 crash) at a 6.3% reward cost; on a custom Webots adaptive cruise control environment, the same SG configuration produces a Pareto improvement -- reward parity (p=0.121), 8--45x steering jitter reduction, and total task-failure rate reduced from 2.0% to 0.7%.