Integrating Trajectory Optimization and Reinforcement Learning for Quadrupedal Jumping with Terrain-Adaptive Landing

📄 arXiv: 2509.12776v1 📥 PDF

作者: Renjie Wang, Shangke Lyu, Xin Lang, Wei Xiao, Donglin Wang

分类: cs.RO

发布日期: 2025-09-16

备注: Accepted by IROS 2025


💡 一句话要点

提出结合轨迹优化与强化学习的四足机器人跳跃框架,实现地形自适应着陆

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 四足机器人 跳跃 轨迹优化 强化学习 地形自适应 着陆 奖励松弛 机器人控制

📋 核心要点

  1. 现有四足机器人跳跃研究多假设平坦着陆面,忽略了真实世界中复杂地形带来的挑战。
  2. 本研究结合轨迹优化与强化学习,轨迹优化提供参考运动,强化学习实现地形自适应着陆。
  3. 通过奖励松弛策略,鼓励智能体在着陆恢复阶段进行探索,提升在复杂地形下的着陆能力。

📝 摘要(中文)

跳跃是四足机器人运动能力的重要组成部分,包括动态起跳和自适应着陆。现有的四足跳跃研究主要集中在站立和飞行阶段,假设着陆地面是平坦的,这在许多实际情况下是不切实际的。本文提出了一种安全着陆框架,通过结合轨迹优化(TO)和强化学习(RL),实现了在粗糙地形上的自适应着陆。强化学习智能体学习跟踪由轨迹优化生成的参考运动,从而适应粗糙地形环境。为了能够在具有挑战性的地形上学习顺应性着陆技能,设计了一种奖励松弛策略,以鼓励在着陆恢复期间的探索。大量实验验证了我们提出的方法在各种场景中实现的精确跟踪和安全着陆技能。

🔬 方法详解

问题定义:现有的四足机器人跳跃研究通常假设着陆地面是平坦的,这与现实世界中复杂多变的地形条件不符。因此,如何使四足机器人在粗糙地形上安全、自适应地着陆是一个关键问题。现有方法难以处理复杂地形,容易导致机器人摔倒或损坏。

核心思路:本文的核心思路是将轨迹优化(TO)和强化学习(RL)相结合。轨迹优化负责生成理想的运动轨迹,而强化学习则负责学习如何在实际环境中跟踪这些轨迹,并对地形变化做出自适应调整。通过这种方式,机器人既能保持运动的效率和准确性,又能适应复杂地形带来的挑战。

技术框架:该框架主要包含两个模块:轨迹优化模块和强化学习模块。首先,轨迹优化模块根据机器人的动力学模型和环境信息,生成一条理想的跳跃轨迹。然后,强化学习模块接收这条轨迹作为参考,通过与环境的交互,学习如何控制机器人的关节,使其尽可能地跟踪这条轨迹。在着陆阶段,强化学习智能体会根据地形的变化,自适应地调整机器人的姿态和着陆点,以确保安全着陆。

关键创新:该方法最重要的创新点在于将轨迹优化和强化学习相结合,并引入了奖励松弛策略。轨迹优化提供了全局的运动规划,而强化学习则提供了局部的自适应能力。奖励松弛策略则鼓励智能体在着陆恢复阶段进行探索,从而提高其在复杂地形下的着陆成功率。与现有方法相比,该方法能够更好地适应复杂地形,并实现更安全、更稳定的着陆。

关键设计:奖励松弛策略是该方法中的一个关键设计。在着陆恢复阶段,如果机器人的状态偏离了目标状态,则会放松对奖励的惩罚,从而鼓励智能体进行探索,寻找更好的恢复策略。此外,该方法还采用了actor-critic架构的强化学习算法,其中actor网络负责生成控制指令,critic网络负责评估当前状态的价值。具体的网络结构和参数设置需要根据具体的机器人和环境进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够在各种复杂地形下实现安全、自适应的着陆。与传统的基于模型的控制方法相比,该方法能够更好地适应地形变化,并具有更强的鲁棒性。通过奖励松弛策略,智能体在着陆恢复阶段的探索能力得到了显著提升,从而提高了在复杂地形下的着陆成功率。具体的性能数据(例如着陆成功率、着陆冲击力等)需要在论文中查找。

🎯 应用场景

该研究成果可应用于搜救、勘探、物流等领域。四足机器人能够在复杂地形下进行跳跃和自适应着陆,使其在这些领域具有独特的优势。例如,在地震灾区,四足机器人可以利用其跳跃能力越过障碍物,快速到达救援现场。在矿山勘探中,四足机器人可以适应复杂的地形条件,进行高效的勘探工作。此外,该技术还可以应用于娱乐机器人领域,例如开发能够进行复杂跳跃动作的四足机器人玩具。

📄 摘要(原文)

Jumping constitutes an essential component of quadruped robots' locomotion capabilities, which includes dynamic take-off and adaptive landing. Existing quadrupedal jumping studies mainly focused on the stance and flight phase by assuming a flat landing ground, which is impractical in many real world cases. This work proposes a safe landing framework that achieves adaptive landing on rough terrains by combining Trajectory Optimization (TO) and Reinforcement Learning (RL) together. The RL agent learns to track the reference motion generated by TO in the environments with rough terrains. To enable the learning of compliant landing skills on challenging terrains, a reward relaxation strategy is synthesized to encourage exploration during landing recovery period. Extensive experiments validate the accurate tracking and safe landing skills benefiting from our proposed method in various scenarios.