ZAPS-DA: Zero-Phase Action Policy Smoothing with Decoupled Actor for Continuous Control in Reinforcement Learning

作者: Faiq Shamass

分类: cs.RO, cs.LG, eess.SY

发布日期: 2026-05-28

备注: 7 pages, 5 figures, 5 tables. Submitted to IEEE RA-L

💡 一句话要点

ZAPS-DA：零相位动作策略平滑与解耦Actor，解决强化学习连续控制中的抖动问题

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 连续控制 动作平滑 零相位滤波 解耦Actor

📋 核心要点

传统强化学习连续控制策略存在高频动作抖动，难以直接应用于物理执行器，需要后处理滤波。
ZAPS-DA框架通过解耦Actor，利用监督模仿学习零相位滤波目标，实现平滑控制，避免了传统方法的相位延迟和超参数调整。
实验表明，ZAPS-DA在驾驶模拟器中显著降低了动作抖动，同时保持了任务完成度和奖励水平，甚至在某些情况下有所提升。

📝 摘要（中文）

本文提出ZAPS-DA框架，旨在减少强化学习中连续控制策略部署时产生的高频动作抖动，且几乎不引入相位延迟，无需后处理。ZAPS-DA将一个未经修改的主Actor（通过基础强化学习损失训练）与一个单独的解耦Actor配对，后者通过监督模仿学习训练，模仿回放缓冲区中存储的零相位滤波目标。部署的策略是解耦Actor：一个从当前观察到平滑动作的前馈映射，无需推理时滤波器，也无需动作历史输入——一种我们称之为非因果滤波器因果蒸馏的机制。幅度匹配的MSE损失提供了跨优化器类的零超参数可移植性。在两个驾驶模拟器中使用配对的n=150评估协议，通过Soft Actor-Critic和Savitzky-Golay滤波器验证：在MetaDrive上，ZAPS-DA将转向抖动减少14-21倍，油门抖动减少3-5倍（所有$p < 10^{-4}$，Bonferroni校正），同时匹配任务完成度（p=0.28成功，p=0.31碰撞），奖励成本为6.3%；在一个定制的Webots自适应巡航控制环境中，相同的SG配置产生帕累托改进——奖励平价（p=0.121），转向抖动减少8-45倍，总任务失败率从2.0%降低到0.7%。

🔬 方法详解

问题定义：强化学习训练的连续控制策略在实际部署时，常常出现高频动作抖动，这使得策略难以直接应用于物理执行器。传统的后处理滤波方法虽然可以降低抖动，但会引入相位延迟，影响控制性能。此外，将平滑性惩罚嵌入Actor的损失函数中，会将平滑性与强化学习梯度耦合，导致奖励回归与过度平滑混淆。

核心思路：ZAPS-DA的核心思路是将策略学习与动作平滑解耦。它使用一个未经修改的主Actor进行策略学习，并引入一个独立的解耦Actor专门负责生成平滑的动作。解耦Actor通过模仿学习的方式，学习由零相位滤波器处理过的动作目标，从而实现动作平滑，同时避免了相位延迟和超参数调整。

技术框架：ZAPS-DA框架包含两个Actor：主Actor和解耦Actor。主Actor使用标准的强化学习算法（如SAC）进行训练，负责学习策略。解耦Actor则通过监督学习的方式进行训练，其目标是模仿由零相位滤波器处理过的主Actor的动作。具体流程如下：1) 主Actor与环境交互，并将状态、动作、奖励等信息存储到回放缓冲区中。2) 从回放缓冲区中采样数据，使用零相位滤波器对主Actor的动作进行平滑处理，得到平滑的动作目标。3) 使用平滑的动作目标训练解耦Actor。4) 部署时，直接使用解耦Actor生成平滑的动作。

关键创新：ZAPS-DA的关键创新在于“非因果滤波器因果蒸馏”机制。它利用零相位滤波器（一种非因果滤波器）生成平滑的动作目标，然后使用解耦Actor（一个因果模型）模仿这些目标。这样，就可以在不引入相位延迟的情况下，实现动作平滑。此外，ZAPS-DA还使用幅度匹配的MSE损失，使得该方法具有跨优化器类的零超参数可移植性。

关键设计：ZAPS-DA的关键设计包括：1) 使用独立的解耦Actor进行动作平滑，避免了策略学习与动作平滑的耦合。2) 使用零相位滤波器生成平滑的动作目标，避免了相位延迟。3) 使用幅度匹配的MSE损失，保证了训练的稳定性和可移植性。4) 实验中使用了Savitzky-Golay滤波器作为零相位滤波器，并将其应用于MetaDrive和Webots驾驶模拟器中。

🖼️ 关键图片

📊 实验亮点

ZAPS-DA在MetaDrive和Webots驾驶模拟器上进行了验证。在MetaDrive上，ZAPS-DA将转向抖动降低了14-21倍，油门抖动降低了3-5倍，同时保持了任务完成度，奖励成本仅为6.3%。在Webots自适应巡航控制环境中，ZAPS-DA实现了帕累托改进，奖励平价，转向抖动降低8-45倍，总任务失败率从2.0%降低到0.7%。

🎯 应用场景

ZAPS-DA框架具有广泛的应用前景，尤其是在需要高精度和低延迟的连续控制任务中，例如自动驾驶、机器人控制、飞行器控制等。该方法可以有效降低控制系统的抖动，提高系统的稳定性和可靠性，从而提升用户体验和安全性。未来，该方法可以进一步扩展到其他强化学习算法和控制场景中。

📄 摘要（原文）

Continuous control policies trained with off-policy reinforcement learning frequently exhibit high-frequency action jitter, rendering direct deployment on physical actuators impractical. Post-hoc filtering attenuates jitter but introduces phase lag; embedding smoothness penalties in the actor's loss couples them with the RL gradient and conflates reward regression with over-aggressive smoothing. We present ZAPS-DA, a framework that reduces action jitter at deployment with negligible phase lag and no post-processing. ZAPS-DA pairs an unmodified main actor (trained by the base RL loss) with a separate decoupled actor trained via supervised imitation of zero-phase filtered targets stored in the replay buffer. The deployed policy is the decoupled actor: a feed-forward map from the current observation to a smooth action, with no inference-time filter and no action-history input -- a mechanism we term causal distillation of a non-causal filter. A magnitude-matched MSE loss provides zero-hyperparameter portability across optimizer classes. Validated with Soft Actor-Critic and a Savitzky--Golay filter in two driving simulators using paired n=150 evaluation protocols: on MetaDrive, ZAPS-DA reduces steering jitter by 14--21x and throttle jitter by 3--5x (all $p < 10^{-4}$, Bonferroni-corrected) while matching task-completion (p=0.28 success, p=0.31 crash) at a 6.3% reward cost; on a custom Webots adaptive cruise control environment, the same SG configuration produces a Pareto improvement -- reward parity (p=0.121), 8--45x steering jitter reduction, and total task-failure rate reduced from 2.0% to 0.7%.

ZAPS-DA: Zero-Phase Action Policy Smoothing with Decoupled Actor for Continuous Control in Reinforcement Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理