Spectral Normalization for Lipschitz-Constrained Policies on Learning Humanoid Locomotion

作者: Jaeyong Shin, Woohyun Cha, Donghyeon Kim, Junhyeok Cha, Jaeheung Park

分类: cs.RO, cs.LG, eess.SY

发布日期: 2025-04-11

备注: This work has been submitted to the IEEE for possible publication

💡 一句话要点

提出基于谱归一化的Lipschitz约束策略，用于人形机器人运动学习。

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture)

关键词: 强化学习 人形机器人 运动控制 谱归一化 Lipschitz约束

📋 核心要点

现有强化学习方法在人形机器人运动控制中，难以应对真实机器人执行器带宽有限和扭矩限制的问题，导致仿真策略难以迁移到真实环境。
论文提出使用谱归一化（SN）来约束策略的Lipschitz连续性，从而限制策略的高频波动，实现有限带宽的动作控制。
实验结果表明，SN方法在仿真和真实机器人上均取得了与梯度惩罚方法相当的性能，同时显著降低了GPU内存占用，提高了训练效率。

📝 摘要（中文）

强化学习在训练腿式机器人灵活且适应性强的控制器方面显示出巨大潜力，使其能够直接从经验中学习复杂的运动行为。然而，在仿真中训练的策略由于不切实际的假设（如无限的执行器带宽和不存在扭矩限制）而经常无法转移到真实世界的机器人上。这些条件允许策略依赖于突发的高频扭矩变化，这对于具有有限带宽的真实执行器来说是不可行的。传统方法通过正则化奖励（如关节速度、加速度和能量消耗）来惩罚激进的运动来解决这个问题，但这需要大量的超参数调整。另一种方法是Lipschitz约束策略（LCP），它通过惩罚策略梯度来强制执行有限带宽动作控制，但它们对梯度计算的依赖引入了显著的GPU内存开销。为了克服这个限制，这项工作提出了谱归一化（SN）作为强制执行Lipschitz连续性的有效替代方案。通过约束网络权重的谱范数，SN有效地限制了高频策略波动，同时显著降低了GPU内存使用。在仿真和真实人形机器人中的实验评估表明，SN实现了与梯度惩罚方法相当的性能，同时实现了更高效的并行训练。

🔬 方法详解

问题定义：论文旨在解决强化学习训练的人形机器人运动控制策略难以迁移到真实世界的问题。现有方法，如使用正则化奖励或Lipschitz约束策略（LCP），存在超参数调整困难或GPU内存开销大的问题。具体来说，真实机器人的执行器带宽有限，无法响应策略产生的高频扭矩变化，导致仿真策略在真实机器人上表现不佳。

核心思路：论文的核心思路是使用谱归一化（Spectral Normalization, SN）来约束策略网络的权重，从而限制策略的Lipschitz常数，使其输出的变化更加平滑，减少高频成分。这样可以模拟真实执行器的带宽限制，提高策略在真实机器人上的泛化能力。SN相比于直接惩罚策略梯度的方法，计算效率更高，内存占用更小。

技术框架：该方法将谱归一化集成到强化学习的策略网络中。训练过程中，策略网络根据当前状态输出动作，环境给出奖励和下一个状态。SN在每次权重更新后，对策略网络的权重矩阵进行谱归一化，确保其谱范数小于一个预设值。整体训练流程与标准的强化学习算法（如PPO）类似，只是在策略网络中加入了SN约束。

关键创新：该论文的关键创新在于将谱归一化应用于强化学习的策略网络，以实现Lipschitz约束。与传统的梯度惩罚方法相比，SN不需要计算策略梯度，因此显著降低了GPU内存占用。此外，SN可以直接约束权重矩阵的谱范数，从而更直接地控制策略的平滑度。

关键设计：论文中，谱归一化应用于策略网络的每一层权重矩阵。具体来说，对于每一层权重矩阵W，计算其谱范数σ(W)，然后将W除以σ(W)进行归一化。谱范数的计算可以使用幂迭代法等高效算法。论文中可能还涉及对谱范数约束值的选择，以及与其他正则化方法的结合。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在人形机器人运动控制任务中，使用谱归一化的策略在仿真和真实机器人上均取得了与梯度惩罚方法相当的性能。更重要的是，谱归一化显著降低了GPU内存占用，使得可以进行更大规模的并行训练，从而提高了训练效率。具体性能数据未知，但论文强调了SN在内存效率方面的优势。

🎯 应用场景

该研究成果可应用于各种腿式机器人的运动控制，例如人形机器人、四足机器人等。通过谱归一化约束策略，可以提高策略在真实机器人上的鲁棒性和泛化能力，降低部署成本。此外，该方法也可推广到其他需要平滑控制输出的强化学习任务中，例如自动驾驶、机械臂控制等。

📄 摘要（原文）

Reinforcement learning (RL) has shown great potential in training agile and adaptable controllers for legged robots, enabling them to learn complex locomotion behaviors directly from experience. However, policies trained in simulation often fail to transfer to real-world robots due to unrealistic assumptions such as infinite actuator bandwidth and the absence of torque limits. These conditions allow policies to rely on abrupt, high-frequency torque changes, which are infeasible for real actuators with finite bandwidth. Traditional methods address this issue by penalizing aggressive motions through regularization rewards, such as joint velocities, accelerations, and energy consumption, but they require extensive hyperparameter tuning. Alternatively, Lipschitz-Constrained Policies (LCP) enforce finite bandwidth action control by penalizing policy gradients, but their reliance on gradient calculations introduces significant GPU memory overhead. To overcome this limitation, this work proposes Spectral Normalization (SN) as an efficient replacement for enforcing Lipschitz continuity. By constraining the spectral norm of network weights, SN effectively limits high-frequency policy fluctuations while significantly reducing GPU memory usage. Experimental evaluations in both simulation and real-world humanoid robot show that SN achieves performance comparable to gradient penalty methods while enabling more efficient parallel training.

Spectral Normalization for Lipschitz-Constrained Policies on Learning Humanoid Locomotion

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理