Learning Whole-Body Control for a Salamander Robot

📄 arXiv: 2603.16683v1 📥 PDF

作者: Mengze Tian, Qiyuan Fu, Chuanfang Ning, Javier Jia Jie Pey, Auke Ijspeert

分类: cs.RO

发布日期: 2026-03-17


💡 一句话要点

提出基于强化学习的蝾螈机器人全身控制方法,实现水陆环境下的稳定运动。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 蝾螈机器人 全身控制 强化学习 水陆两栖 仿真-实物迁移

📋 核心要点

  1. 现有蝾螈机器人控制主要依赖CPG和模型方法,缺乏统一的、可迁移的关节级全身控制学习方案。
  2. 利用强化学习,将本体感受和速度指令映射到关节动作,使机器人自主学习协调运动行为。
  3. 通过实物-仿真匹配和迁移策略,成功将学习到的控制器部署到真实机器人上,实现稳定行走。

📝 摘要(中文)

本文提出了一种基于强化学习的全身控制方法,用于控制蝾螈机器人,使其能够在复杂的水陆两栖环境中运动。与传统的基于中央模式发生器(CPG)和基于模型的协调策略不同,该方法学习将本体感受观测和指令速度映射到关节级别的动作,从而实现协调的运动行为。为了在硬件上部署这些策略,采用了系统级的实物-仿真匹配和仿真-实物迁移策略。实验结果表明,所学习的控制器能够在真实世界的平坦和不平坦地形上实现稳定和协调的行走。此外,该框架还能够在仿真中实现行走和游泳之间的转换,突出了理解不同物理模式下运动的有趣现象。

🔬 方法详解

问题定义:现有的蝾螈机器人控制方法,如基于中央模式发生器(CPG)和基于模型的策略,在复杂环境中泛化能力有限,难以实现统一的、可迁移的关节级全身控制。尤其是在水陆两栖环境中,缺乏有效的学习型控制器。

核心思路:论文的核心思路是利用强化学习,直接从本体感受观测和指令速度中学习关节级别的动作控制策略。通过端到端的学习方式,避免了手动设计运动模式和参数调整的复杂性,使机器人能够自主地学习协调的运动行为。

技术框架:整体框架包括三个主要部分:1) 强化学习训练环境的构建,包括机器人模型和环境建模;2) 强化学习算法的选择和训练,用于学习从状态到动作的映射;3) 系统级的实物-仿真匹配和仿真-实物迁移策略,用于将学习到的策略部署到真实机器人上。具体流程是,首先在仿真环境中训练强化学习模型,然后通过实物-仿真匹配减小仿真环境和真实环境的差异,最后将训练好的模型迁移到真实机器人上。

关键创新:最重要的创新点在于提出了一种基于强化学习的全身控制方法,能够直接学习关节级别的动作控制策略,而无需依赖于传统的CPG或模型方法。此外,该方法还能够实现水陆两栖环境下的运动控制,这在现有的蝾螈机器人控制研究中相对较少。

关键设计:论文中使用了近端策略优化(PPO)算法进行强化学习训练。状态空间包括机器人的关节角度、角速度、以及期望的速度指令。动作空间为机器人的关节力矩。奖励函数的设计考虑了前进速度、能量消耗、以及稳定性等因素。为了实现实物-仿真迁移,论文采用了系统级的参数匹配方法,包括机器人质量、摩擦系数等参数的校准。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,所学习的控制器能够在真实世界的平坦和不平坦地形上实现稳定和协调的行走。在仿真环境中,该控制器能够实现行走和游泳之间的平滑过渡。与传统的基于CPG的控制方法相比,该方法能够更好地适应不同的环境,并实现更复杂的运动行为。具体性能数据未知。

🎯 应用场景

该研究成果可应用于复杂地形搜索救援、水下环境勘探、以及两栖环境监测等领域。通过学习到的全身控制策略,蝾螈机器人能够适应不同的环境,执行各种任务,具有重要的实际应用价值。未来,该方法还可以推广到其他类型的多关节机器人,进一步提高机器人的运动能力和适应性。

📄 摘要(原文)

Amphibious legged robots inspired by salamanders are promising in applications in complex amphibious environments. However, despite the significant success of training controllers that achieve diverse locomotion behaviors in conventional quadrupedal robots, most salamander robots relied on central-pattern-generator (CPG)-based and model-based coordination strategies for locomotion control. Learning unified joint-level whole-body control that reliably transfers from simulation to highly articulated physical salamander robots remains relatively underexplored. In addition, few legged robots have tried learning-based controllers in amphibious environments. In this work, we employ Reinforcement Learning to map proprioceptive observations and commanded velocities to joint-level actions, allowing coordinated locomotor behaviors to emerge. To deploy these policies on hardware, we adopt a system-level real-to-sim matching and sim-to-real transfer strategy. The learned controller achieves stable and coordinated walking on both flat and uneven terrains in the real world. Beyond terrestrial locomotion, the framework enables transitions between walking and swimming in simulation, highlighting a phenomenon of interest for understanding locomotion across distinct physical modes.