QuietPaw: Learning Quadrupedal Locomotion with Versatile Noise Preference Alignment

📄 arXiv: 2503.05035v1 📥 PDF

作者: Yuyou Zhang, Yihang Yao, Shiqi Liu, Yaru Niu, Changyi Lin, Yuxiang Yang, Wenhao Yu, Tingnan Zhang, Jie Tan, Ding Zhao

分类: cs.RO, cs.LG

发布日期: 2025-03-06


💡 一句话要点

QuietPaw:通过多功能噪声偏好对齐学习四足运动

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 四足机器人 噪声控制 强化学习 条件策略 价值分解

📋 核心要点

  1. 四足机器人噪声控制面临敏捷性与降噪的权衡、泛化能力以及策略调整的挑战。
  2. QuietPaw提出条件噪声约束策略(CNCP),通过条件控制策略行为实现噪声感知的运动控制。
  3. 实验验证CNCP能有效平衡运动性能和噪声约束,实现连续可调的降噪效果。

📝 摘要(中文)

四足机器人在全速运行时会产生很大的脚步声,这在以人为中心的环境(如家庭、办公室和医院)中可能会造成干扰。因此,平衡运动性能和噪声约束对于四足机器人成功地在现实世界中部署至关重要。然而,实现自适应噪声控制具有挑战性,原因在于:(a) 敏捷性和噪声最小化之间的权衡,(b) 需要在不同的部署条件下进行泛化,以及 (c) 难以根据噪声要求有效地调整策略。我们提出了QuietPaw,一个包含条件噪声约束策略(CNCP)的框架,这是一种基于约束学习的算法,通过将策略行为置于降噪水平的条件下,实现灵活的、噪声感知的运动。我们利用评论家中的价值表示分解,将状态表示与条件相关的表示分离,这使得单个通用策略能够在不重新训练的情况下跨噪声水平进行泛化,同时改善敏捷性和降噪之间的帕累托权衡。我们在仿真和现实世界中验证了我们的方法,证明CNCP可以有效地平衡运动性能和噪声约束,实现连续可调的降噪。

🔬 方法详解

问题定义:论文旨在解决四足机器人在人居环境中运行时产生的噪声问题。现有方法难以在敏捷性和噪声控制之间取得平衡,并且难以泛化到不同的环境和噪声要求下。现有的强化学习方法难以根据噪声要求进行有效调整策略。

核心思路:论文的核心思路是提出一种条件噪声约束策略(CNCP),该策略能够根据不同的噪声降低水平来调整机器人的运动策略。通过将噪声水平作为策略的条件输入,使得机器人能够根据环境需求自适应地调整其运动方式,从而在敏捷性和噪声控制之间取得平衡。

技术框架:QuietPaw框架包含条件噪声约束策略(CNCP)。CNCP利用价值表示分解,将状态表示与条件相关的表示分离。整体流程是:首先,使用强化学习训练一个能够根据噪声水平条件进行调整的策略。然后,在实际部署时,根据环境的噪声要求,将相应的噪声水平输入到策略中,从而控制机器人的运动方式。该框架允许单个策略在不同的噪声水平下泛化,无需重新训练。

关键创新:论文的关键创新在于提出了条件噪声约束策略(CNCP),该策略能够显式地将噪声水平作为策略的条件输入,从而实现噪声感知的运动控制。此外,论文还采用了价值表示分解技术,将状态表示与条件相关的表示分离,从而提高了策略的泛化能力。与现有方法相比,CNCP能够更好地平衡敏捷性和噪声控制之间的权衡。

关键设计:CNCP使用Actor-Critic架构,Actor网络输出动作,Critic网络评估状态-动作对的价值。Critic网络采用价值表示分解,将状态表示与条件相关的表示分离。损失函数包括强化学习的标准损失函数以及噪声约束损失函数,用于惩罚超过噪声阈值的行为。噪声水平被编码成一个连续的向量,并作为Actor和Critic网络的输入。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文在仿真和真实机器人上进行了实验验证。实验结果表明,CNCP能够有效地平衡运动性能和噪声约束,实现连续可调的降噪效果。具体而言,CNCP能够在保证运动速度的同时,显著降低机器人的脚步声,并且能够在不同的噪声水平下进行泛化。与基线方法相比,CNCP在敏捷性和降噪之间取得了更好的帕累托权衡。

🎯 应用场景

该研究成果可应用于家庭服务机器人、医疗辅助机器人等需要在安静环境中运行的四足机器人。通过QuietPaw框架,这些机器人可以根据环境噪声要求自适应地调整运动策略,降低噪声干扰,提升用户体验。未来,该技术还可扩展到其他类型的机器人,例如轮式机器人和人形机器人,以实现更广泛的噪声控制应用。

📄 摘要(原文)

When operating at their full capacity, quadrupedal robots can produce loud footstep noise, which can be disruptive in human-centered environments like homes, offices, and hospitals. As a result, balancing locomotion performance with noise constraints is crucial for the successful real-world deployment of quadrupedal robots. However, achieving adaptive noise control is challenging due to (a) the trade-off between agility and noise minimization, (b) the need for generalization across diverse deployment conditions, and (c) the difficulty of effectively adjusting policies based on noise requirements. We propose QuietPaw, a framework incorporating our Conditional Noise-Constrained Policy (CNCP), a constrained learning-based algorithm that enables flexible, noise-aware locomotion by conditioning policy behavior on noise-reduction levels. We leverage value representation decomposition in the critics, disentangling state representations from condition-dependent representations and this allows a single versatile policy to generalize across noise levels without retraining while improving the Pareto trade-off between agility and noise reduction. We validate our approach in simulation and the real world, demonstrating that CNCP can effectively balance locomotion performance and noise constraints, achieving continuously adjustable noise reduction.