HAC-LOCO: Learning Hierarchical Active Compliance Control for Quadruped Locomotion under Continuous External Disturbances

📄 arXiv: 2507.02447v1 📥 PDF

作者: Xiang Zhou, Xinyu Zhang, Qingrui Zhang

分类: cs.RO

发布日期: 2025-07-03

备注: 8 pages, 7 Figures


💡 一句话要点

提出HAC-LOCO,用于四足机器人持续扰动下的分层主动顺应控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 四足机器人 运动控制 强化学习 顺应控制 力估计 分层学习 鲁棒性 能量效率

📋 核心要点

  1. 现有四足机器人控制方法在应对外部扰动时,往往优先考虑运动的鲁棒性,导致运动僵硬、频率高且能量效率低。
  2. 该论文提出一种分层学习框架,通过力估计主动调整速度指令,使机器人既能抵抗轻微扰动,又能对较大外力做出顺应性反应。
  3. 仿真和真实实验表明,该方法在鲁棒性、能量效率和安全性方面优于现有方法,并进行了消融实验验证关键模块的作用。

📝 摘要(中文)

本文提出了一种两阶段分层学习框架,用于学习对外部扰动的主动反应,从而实现四足机器人在不可预见的外部扰动下稳健且顺应的运动控制。第一阶段,训练一个速度跟踪策略和一个自编码器来提取历史本体感受特征。同时,通过监督学习训练一个神经网络估计器,根据本体感受测量值估计身体速度和外部力。第二阶段,基于预训练的编码器和策略,学习一个受阻抗控制启发的顺应动作模块,该模块根据实时力估计主动调整速度指令以响应外部力。通过顺应动作模块,四足机器人可以稳健地处理轻微扰动,并在受到较大外力时适当让步,从而在鲁棒性和顺应性之间取得平衡。仿真和真实实验表明,该方法在鲁棒性、能源效率和安全性方面具有优越的性能,并且优于目前最先进的基于强化学习的运动控制器。消融研究表明了顺应动作模块的关键作用。

🔬 方法详解

问题定义:现有四足机器人控制方法在应对外部扰动时,往往过于强调鲁棒性,导致运动僵硬、高频,能量效率低,并且缺乏对环境的顺应性。因此,需要一种方法能够在保证运动稳定性的同时,对外部扰动做出适当的反应,实现鲁棒性和顺应性的平衡。

核心思路:该论文的核心思路是利用分层学习框架,首先学习一个基础的运动控制策略,然后在此基础上学习一个顺应动作模块,该模块能够根据实时的力估计调整运动指令,从而使机器人能够对外部扰动做出主动的顺应性反应。这种分层结构使得机器人既能保持运动的稳定性,又能灵活地适应外部环境的变化。

技术框架:该方法包含两个主要阶段:第一阶段是预训练阶段,包括训练一个速度跟踪策略和一个自编码器来提取历史本体感受特征,以及训练一个神经网络估计器来估计身体速度和外部力。第二阶段是顺应控制阶段,基于预训练的编码器和策略,学习一个顺应动作模块,该模块根据实时力估计主动调整速度指令。整体流程是:本体感受信息输入到编码器和力估计器,力估计器输出的力估计值和编码器的输出一起输入到顺应动作模块,顺应动作模块调整速度指令,最终控制机器人运动。

关键创新:该方法最重要的技术创新点在于提出了一个顺应动作模块,该模块能够根据实时的力估计调整运动指令,从而使机器人能够对外部扰动做出主动的顺应性反应。与现有方法相比,该方法不仅考虑了运动的鲁棒性,还考虑了对环境的顺应性,从而实现了更好的控制效果。此外,使用分层学习框架,将复杂的控制问题分解为两个相对简单的子问题,降低了学习难度。

关键设计:力估计器采用神经网络结构,通过监督学习进行训练,损失函数为力估计误差的均方误差。顺应动作模块的设计灵感来源于阻抗控制,通过调整速度指令来模拟期望的阻抗特性。自编码器的作用是提取历史本体感受信息中的关键特征,从而提高力估计的准确性。具体网络结构和参数设置在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在鲁棒性、能量效率和安全性方面均优于现有方法。具体而言,在受到外部扰动时,该方法能够更好地保持机器人的平衡和运动轨迹,同时降低能量消耗。与最先进的基于强化学习的运动控制器相比,该方法在多个指标上均有显著提升(具体数据未知)。消融实验验证了顺应动作模块的关键作用,表明其对提高机器人的鲁棒性和顺应性至关重要。

🎯 应用场景

该研究成果可应用于各种需要在复杂环境中进行运动的四足机器人,例如搜救、巡检、物流等。通过提高机器人的鲁棒性和顺应性,使其能够在崎岖地形、拥挤环境或存在未知干扰的情况下安全可靠地完成任务。此外,该方法还可以推广到其他类型的机器人,例如人形机器人和机械臂,从而提高其在复杂环境中的适应能力。

📄 摘要(原文)

Despite recent remarkable achievements in quadruped control, it remains challenging to ensure robust and compliant locomotion in the presence of unforeseen external disturbances. Existing methods prioritize locomotion robustness over compliance, often leading to stiff, high-frequency motions, and energy inefficiency. This paper, therefore, presents a two-stage hierarchical learning framework that can learn to take active reactions to external force disturbances based on force estimation. In the first stage, a velocity-tracking policy is trained alongside an auto-encoder to distill historical proprioceptive features. A neural network-based estimator is learned through supervised learning, which estimates body velocity and external forces based on proprioceptive measurements. In the second stage, a compliance action module, inspired by impedance control, is learned based on the pre-trained encoder and policy. This module is employed to actively adjust velocity commands in response to external forces based on real-time force estimates. With the compliance action module, a quadruped robot can robustly handle minor disturbances while appropriately yielding to significant forces, thus striking a balance between robustness and compliance. Simulations and real-world experiments have demonstrated that our method has superior performance in terms of robustness, energy efficiency, and safety. Experiment comparison shows that our method outperforms the state-of-the-art RL-based locomotion controllers. Ablation studies are given to show the critical roles of the compliance action module.