Input-Side Variance Suppression under Non-Normal Transient Amplification in Continuous-Control Reinforcement Learning

📄 arXiv: 2604.17744v1 📥 PDF

作者: Wu Yue

分类: eess.SY

发布日期: 2026-04-20

备注: 4 figs ,3 tables


💡 一句话要点

针对连续控制强化学习中非正规瞬态放大问题,提出输入侧方差抑制方法

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 连续控制强化学习 非正规瞬态放大 方差抑制 机器人控制 控制理论 四旋翼 闭环系统

📋 核心要点

  1. 连续控制强化学习面临闭环方差大、控制抖动和对扰动敏感等问题,传统方法侧重于扰动源分析。
  2. 论文提出输入侧方差抑制层,位于策略和被控对象之间,旨在减少输入方差和步进抖动,降低状态协方差。
  3. 通过控制理论干预和平面四旋翼实验验证,表明非正规瞬态放大是闭环方差的重要因素,源侧抑制有效。

📝 摘要(中文)

连续控制强化学习(RL)常表现出较大的闭环方差、高频控制抖动以及对扰动注入的敏感性。现有解释通常强调动作噪声、探索扰动或策略非光滑性等扰动源。本文研究了一个互补的放大器侧视角:在名义上稳定但具有强非正规性的闭环中,小的输入扰动会经历瞬态放大,并导致不成比例的大状态协方差。受这种源-放大器分解的启发,我们引入了一个输入侧方差抑制层,该层在学习到的策略和被控对象输入之间运行,以减少施加的输入方差和步进抖动。为了将机制与相关性分离,我们使用了两种控制理论干预:一种仅在固定特征值和谱半径下改变特征向量几何形状,另一种仅在固定强非正规几何形状下改变施加的输入统计量。然后,我们在平面四旋翼任务上提供了与机制一致的外部验证。自始至终,Koopman/ALE 替代模型仅用作分析和认证工具,而不是直接的性能提升路径。总而言之,结果支持一个更窄的结论:在所研究的设置中,非正规瞬态放大是执行时闭环方差的一个重要且未被充分强调的贡献因素,并且源侧抑制可以在不改变结构峰值增益的情况下降低下游协方差。

🔬 方法详解

问题定义:连续控制强化学习中,即使系统名义上稳定,小的输入扰动也可能被放大,导致状态协方差显著增大,进而影响控制性能和稳定性。现有方法主要关注动作噪声、探索扰动等扰动源,忽略了系统本身的放大效应。

核心思路:将闭环系统视为一个“源-放大器”结构,扰动是源,系统是非正规放大器。通过抑制输入侧的方差,减少进入放大器的扰动能量,从而降低下游的状态协方差,改善控制性能。核心在于控制输入方差,而非直接修改策略或系统动力学。

技术框架:整体框架包括一个标准的强化学习策略网络,以及一个位于策略网络输出和被控对象输入之间的输入侧方差抑制层。该抑制层的作用是降低策略输出的方差,从而减少施加到被控对象的输入扰动。论文使用Koopman/ALE替代模型进行分析和验证,但并未直接用于性能优化。

关键创新:创新点在于从“放大器”的角度分析连续控制强化学习中的方差问题,并提出输入侧方差抑制方法。与传统方法关注扰动源不同,该方法直接抑制扰动能量的放大,从而更有效地降低状态协方差。通过控制理论干预,分离了特征向量几何形状和输入统计量对系统性能的影响,增强了结论的可靠性。

关键设计:输入侧方差抑制层可以使用多种实现方式,例如简单的缩放操作或更复杂的滤波器。关键在于选择合适的抑制强度,避免过度抑制导致策略失效。论文通过控制理论干预,设计了两种实验:一种固定特征值和谱半径,改变特征向量几何形状;另一种固定强非正规几何形状,改变输入统计量。这些实验用于验证非正规瞬态放大对闭环方差的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过平面四旋翼实验验证了输入侧方差抑制的有效性。实验结果表明,在不改变结构峰值增益的情况下,输入侧抑制可以显著降低下游的状态协方差,从而提高控制性能。通过控制理论干预,论文还验证了非正规瞬态放大是闭环方差的重要贡献因素。

🎯 应用场景

该研究成果可应用于对控制精度和稳定性要求较高的机器人控制领域,例如无人机、自动驾驶汽车和工业机器人。通过抑制输入侧方差,可以提高系统的鲁棒性和抗干扰能力,降低控制抖动,提升整体性能。该方法也为分析和解决其他控制系统中的方差问题提供了新的思路。

📄 摘要(原文)

Continuous-control reinforcement learning (RL) often exhibits large closed-loop variance, high-frequency control jitter, and sensitivity to disturbance injection. Existing explanations usually emphasize disturbance sources such as action noise, exploration perturbations, or policy nonsmoothness. This letter studies a complementary amplifier-side perspective: in nominally stable yet strongly non-normal closed loops, small input perturbations can undergo transient amplification and lead to disproportionately large state covariance. Motivated by this source--amplifier decomposition, we introduce an input-side variance suppression layer that operates between the learned policy and the plant input to reduce applied-input variance and step-to-step jitter. To separate mechanism from correlation, we use two control-theoretic interventions: one varies only eigenvector geometry under fixed eigenvalues and spectral radius, and the other varies only applied-input statistics under fixed strongly non-normal geometry. We then provide mechanism-consistent external validation on planar quadrotor tasks. Throughout, Koopman/ALE surrogates are used only as analysis and certification tools, not as direct performance paths. Taken together, the results support a narrower claim: in the studied settings, non-normal transient amplification is an important and under-emphasized contributor to execution-time closed-loop variance, and source-side suppression can reduce downstream covariance without changing the structural peak gain.