Dynamic Adaptive Legged Locomotion Policy via Decoupling Reaction Force Control and Gait Control
作者: Renjie Wang, Shangke Lyu, Donglin Wang
分类: cs.RO
发布日期: 2025-09-17
💡 一句话要点
提出解耦反应力控制与步态控制的动态自适应腿足运动策略,提升泛化性
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)
关键词: 腿足机器人 强化学习 自适应控制 解耦控制 步态规划
📋 核心要点
- 现有腿足机器人强化学习方法在面对真实环境的复杂性和变化时,泛化能力不足,难以适应未知的扰动和地形。
- 该论文提出解耦反应力控制和步态控制的框架,将站立腿和摆动腿的控制分离,从而实现更快的在线自适应能力。
- 实验结果表明,该方法在水平力扰动、不平坦地形、重型载荷等多种复杂场景下,以及模拟到真实环境的迁移中,均表现出良好的性能。
📝 摘要(中文)
强化学习(RL)在腿足运动控制方面取得了显著进展,但常常面临分布外(OOD)条件下的性能下降以及模拟环境与真实环境之间的差异。本文提出了一种新兴的解耦框架,该框架通过隔离站立腿控制和摆动腿控制,获得了快速的在线自适应能力,并减轻了在不熟悉环境中模拟到真实(sim-to-real)的难题,而非主要依赖于领域随机化(DR)来尽可能覆盖真实环境,从而缩小模拟到真实的差距并增强鲁棒性。各种模拟和真实世界的实验证明了其对抗水平力扰动、不平坦地形、重型和有偏载荷以及模拟到真实差距的有效性。
🔬 方法详解
问题定义:现有基于强化学习的腿足机器人控制方法,通常依赖于领域随机化来提高泛化能力,但这种方法难以完全覆盖真实世界的复杂性和不确定性,导致在真实环境中性能下降。痛点在于无法快速适应新的、未知的环境条件,例如不同的地形、载荷和扰动。
核心思路:将腿足机器人的控制解耦为反应力控制和步态控制两个部分。反应力控制主要负责站立腿的力矩控制,以维持平衡和稳定;步态控制则负责摆动腿的运动轨迹规划,以实现高效的运动。通过解耦,可以分别优化这两个控制器的策略,并更容易地适应不同的环境条件。
技术框架:整体框架包含两个主要的模块:站立腿反应力控制器和摆动腿步态控制器。站立腿反应力控制器基于强化学习训练,目标是根据当前的状态(例如机器人姿态、地面反作用力)输出合适的力矩,以维持平衡。摆动腿步态控制器则根据期望的运动速度和方向,生成摆动腿的运动轨迹。这两个控制器相互协作,共同完成腿足机器人的运动控制。
关键创新:最关键的创新在于将腿足机器人的控制解耦为反应力控制和步态控制。这种解耦使得控制器可以更容易地适应不同的环境条件,并且可以分别优化这两个控制器的策略。与传统的端到端强化学习方法相比,该方法具有更好的泛化能力和鲁棒性。
关键设计:站立腿反应力控制器使用深度神经网络作为策略函数,输入包括机器人姿态、地面反作用力等信息,输出为关节力矩。损失函数包括平衡损失、运动损失和能量消耗损失。摆动腿步态控制器使用参数化的轨迹生成方法,通过调整轨迹参数来适应不同的运动速度和方向。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
该论文通过模拟和真实世界的实验验证了所提出方法的有效性。实验结果表明,该方法在面对水平力扰动、不平坦地形、重型载荷等复杂环境时,能够保持稳定的运动。此外,该方法在模拟到真实环境的迁移中也表现出良好的性能,表明其具有较强的泛化能力。具体性能数据未知。
🎯 应用场景
该研究成果可应用于各种腿足机器人,例如四足机器人、双足机器人等,使其能够在复杂和未知的环境中执行任务,如搜救、巡检、物流等。通过提高腿足机器人的自适应能力和鲁棒性,可以扩展其应用范围,并使其在实际场景中更加可靠和高效。未来,该技术有望应用于外骨骼机器人,帮助行动不便的人群恢复行走能力。
📄 摘要(原文)
While Reinforcement Learning (RL) has achieved remarkable progress in legged locomotion control, it often suffers from performance degradation in out-of-distribution (OOD) conditions and discrepancies between the simulation and the real environments. Instead of mainly relying on domain randomization (DR) to best cover the real environments and thereby close the sim-to-real gap and enhance robustness, this work proposes an emerging decoupled framework that acquires fast online adaptation ability and mitigates the sim-to-real problems in unfamiliar environments by isolating stance-leg control and swing-leg control. Various simulation and real-world experiments demonstrate its effectiveness against horizontal force disturbances, uneven terrains, heavy and biased payloads, and sim-to-real gap.