SATA: Safe and Adaptive Torque-Based Locomotion Policies Inspired by Animal Learning

📄 arXiv: 2502.12674v2 📥 PDF

作者: Peizhuo Li, Hongyi Li, Ge Sun, Jin Cheng, Xinrong Yang, Guillaume Bellegarda, Milad Shafiee, Yuhong Cao, Auke Ijspeert, Guillaume Sartoretti

分类: cs.RO, cs.LG

发布日期: 2025-02-18 (更新: 2025-05-08)


💡 一句话要点

SATA:一种受动物学习启发的安全自适应力矩控制步态策略,实现零样本迁移。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 腿式机器人 力矩控制 强化学习 零样本迁移 生物启发

📋 核心要点

  1. 现有基于位置控制的腿式机器人,在未见过的环境或扰动下,顺应性和适应性不足,存在安全隐患。
  2. SATA框架受动物运动启发,采用基于力矩的控制策略,并结合生物力学原理和自适应学习机制。
  3. SATA显著改善了早期探索,实现了零样本的sim-to-real迁移,并在复杂环境中表现出卓越的顺应性和安全性。

📝 摘要(中文)

尽管基于学习的腿式机器人控制器取得了进展,但由于安全问题,其在以人为中心的环境中的部署仍然有限。大多数方法采用基于位置的控制,策略输出目标关节角度,然后由低级控制器(如PD或阻抗控制器)处理以计算关节力矩。虽然在受控的真实场景中取得了显著成果,但这些方法在遇到训练中未见过的环境或扰动时,在顺应性和适应性方面表现不佳,可能导致极端或不安全的行为。受动物通过控制肌肉伸缩实现平滑自适应运动的启发,基于力矩的策略提供了一种有前景的替代方案,能够精确直接地控制执行器的力矩。原则上,这种方法有助于与环境进行更有效的交互,从而实现更安全和更具适应性的行为。然而,高度非线性的状态空间和训练期间的低效探索阻碍了其更广泛的应用。为了解决这些局限性,我们提出SATA,一种受生物启发的框架,模仿动物运动中观察到的关键生物力学原理和自适应学习机制。我们的方法通过显著改善早期探索,有效地解决了学习基于力矩策略的固有挑战,从而产生高性能的最终策略。值得注意的是,我们的方法实现了零样本的sim-to-real迁移。实验结果表明,SATA即使在具有挑战性的环境中(如柔软/湿滑地形或狭窄通道中)以及在显著的外部扰动下,也表现出卓越的顺应性和安全性,突出了其在以人为中心和安全关键场景中实际部署的潜力。

🔬 方法详解

问题定义:现有腿式机器人控制方法主要依赖于基于位置的控制,这种方法需要低级控制器将目标关节角度转化为力矩。当机器人遇到训练中未见过的环境或扰动时,这种间接控制方式会导致顺应性和适应性不足,从而可能产生不安全的行为。因此,需要一种更直接、更安全的控制方法,能够使机器人更好地与环境交互。

核心思路:SATA的核心思路是采用基于力矩的控制策略,直接控制机器人的关节力矩。这种方法模仿了动物通过控制肌肉伸缩来实现平滑自适应运动的方式。此外,SATA还借鉴了动物的生物力学原理和自适应学习机制,以提高策略的探索效率和最终性能。

技术框架:SATA框架主要包含以下几个关键模块:1) 生物力学启发的奖励函数设计,鼓励自然的运动模式;2) 自适应探索策略,提高在复杂状态空间中的探索效率;3) 鲁棒的力矩控制策略学习算法,确保策略的稳定性和安全性。整体流程是从仿真环境中进行训练,然后零样本迁移到真实机器人上。

关键创新:SATA最重要的技术创新在于其将生物力学原理和自适应学习机制融入到基于力矩的控制策略学习中。与传统的基于位置的控制方法相比,SATA能够更直接地控制机器人的运动,从而实现更高的顺应性和适应性。此外,SATA的自适应探索策略能够有效地解决力矩控制策略学习中的探索效率问题。

关键设计:SATA的关键设计包括:1) 基于能量效率和运动平滑性的奖励函数,鼓励机器人学习自然的步态;2) 基于高斯过程的自适应探索策略,根据策略的不确定性动态调整探索范围;3) 使用Trust Region Policy Optimization (TRPO)算法进行策略学习,确保策略的单调改进和安全性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SATA实现了零样本的sim-to-real迁移,并在多种复杂环境中进行了实验验证。实验结果表明,SATA在柔软/湿滑地形、狭窄通道以及受到外部扰动的情况下,均表现出卓越的顺应性和安全性。与传统的基于位置的控制方法相比,SATA能够更好地适应环境变化,并避免出现不安全的行为。

🎯 应用场景

SATA框架具有广泛的应用前景,特别是在需要高安全性和适应性的场景中,例如:人机协作、搜救行动、医疗康复等。该方法能够使腿式机器人在复杂和动态的环境中安全可靠地运动,从而扩展了腿式机器人的应用范围。

📄 摘要(原文)

Despite recent advances in learning-based controllers for legged robots, deployments in human-centric environments remain limited by safety concerns. Most of these approaches use position-based control, where policies output target joint angles that must be processed by a low-level controller (e.g., PD or impedance controllers) to compute joint torques. Although impressive results have been achieved in controlled real-world scenarios, these methods often struggle with compliance and adaptability when encountering environments or disturbances unseen during training, potentially resulting in extreme or unsafe behaviors. Inspired by how animals achieve smooth and adaptive movements by controlling muscle extension and contraction, torque-based policies offer a promising alternative by enabling precise and direct control of the actuators in torque space. In principle, this approach facilitates more effective interactions with the environment, resulting in safer and more adaptable behaviors. However, challenges such as a highly nonlinear state space and inefficient exploration during training have hindered their broader adoption. To address these limitations, we propose SATA, a bio-inspired framework that mimics key biomechanical principles and adaptive learning mechanisms observed in animal locomotion. Our approach effectively addresses the inherent challenges of learning torque-based policies by significantly improving early-stage exploration, leading to high-performance final policies. Remarkably, our method achieves zero-shot sim-to-real transfer. Our experimental results indicate that SATA demonstrates remarkable compliance and safety, even in challenging environments such as soft/slippery terrain or narrow passages, and under significant external disturbances, highlighting its potential for practical deployments in human-centric and safety-critical scenarios.