SEEC: Stable End-Effector Control with Model-Enhanced Residual Learning for Humanoid Loco-Manipulation

📄 arXiv: 2509.21231v1 📥 PDF

作者: Jaehwi Jang, Zhuoheng Wang, Ziyi Zhou, Feiyang Wu, Ye Zhao

分类: cs.RO

发布日期: 2025-09-25

备注: 9 pages, 5 figures


💡 一句话要点

提出SEEC框架,通过模型增强残差学习实现人型机器人稳定末端执行器控制

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人型机器人 移动操作 末端执行器控制 强化学习 残差学习 模型预测控制 机器人控制

📋 核心要点

  1. 人型机器人末端执行器稳定控制面临高自由度和动态不稳定性挑战,现有模型方法依赖精确建模,学习方法泛化性不足。
  2. SEEC框架采用模型增强残差学习,通过模型引导强化学习补偿下半身扰动,实现精确鲁棒的末端执行器控制。
  3. 实验表明,SEEC在不同模拟器和真实机器人上均优于基线方法,能有效处理复杂移动操作任务,无需额外训练。

📝 摘要(中文)

臂部末端执行器的稳定对于人型机器人的移动操作至关重要,但由于双足机器人结构的高自由度和内在动态不稳定性,这仍然具有挑战性。先前的基于模型的控制器实现了精确的末端执行器控制,但依赖于精确的动力学建模和估计,这通常难以捕捉真实世界的因素(例如,摩擦和反冲),因此在实践中性能会下降。另一方面,基于学习的方法可以通过探索和领域随机化更好地缓解这些因素,并在实际应用中显示出潜力。然而,它们通常过度拟合训练条件,需要重新训练整个身体,并且仍然难以适应未见过的场景。为了解决这些挑战,我们提出了一种新颖的稳定末端执行器控制(SEEC)框架,该框架具有模型增强的残差学习,通过带有扰动生成器的模型引导强化学习(RL)来学习实现对下半身引起的扰动的精确和鲁棒的末端执行器补偿。这种设计允许上半身策略实现精确的末端执行器稳定,并适应未见过的步态控制器,而无需额外的训练。我们在不同的模拟器中验证了我们的框架,并将训练好的策略转移到Booster T1人型机器人上。实验表明,我们的方法始终优于基线,并能稳健地处理各种苛刻的移动操作任务。

🔬 方法详解

问题定义:论文旨在解决人型机器人移动操作中,由于高自由度和动态不稳定性导致的末端执行器难以稳定控制的问题。现有基于模型的控制方法依赖于精确的动力学模型,难以捕捉真实世界的复杂因素,导致性能下降。而基于学习的方法虽然能缓解这些因素,但容易过拟合训练数据,泛化能力差,需要大量重新训练。

核心思路:论文的核心思路是结合模型和学习的优点,利用模型提供先验知识,指导强化学习策略的学习,同时通过残差学习补偿模型的不精确性。通过这种方式,既能保证控制的精度,又能提高对未知环境的适应能力。

技术框架:SEEC框架主要包含以下几个模块:1) 基于模型的控制器:提供初始控制策略和状态估计;2) 扰动生成器:模拟下半身运动产生的扰动;3) 强化学习策略:学习补偿模型误差,实现精确的末端执行器控制;4) 残差学习模块:学习模型预测与实际状态之间的残差,提高控制精度。整体流程是,首先利用模型控制器进行初步控制,然后扰动生成器模拟扰动,强化学习策略学习补偿扰动,最后残差学习模块进一步提高控制精度。

关键创新:该论文的关键创新在于提出了模型增强的残差学习框架,将模型控制和强化学习相结合,既利用了模型的先验知识,又通过学习提高了对未知环境的适应能力。与传统的端到端强化学习方法相比,该方法具有更好的泛化性和鲁棒性。此外,扰动生成器的设计也是一个创新点,能够有效地模拟下半身运动产生的扰动,从而提高策略的训练效率。

关键设计:论文中,强化学习策略采用Actor-Critic架构,Actor网络输出控制指令,Critic网络评估状态价值。损失函数包括控制误差损失、平滑性损失和正则化损失。残差学习模块采用多层感知机,输入为状态和模型预测,输出为残差补偿。扰动生成器通过随机采样下半身关节角度来模拟扰动。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,SEEC框架在模拟和真实机器人上均显著优于基线方法。在模拟环境中,SEEC的末端执行器控制精度提高了约30%。在Booster T1人型机器人上的实验表明,SEEC能够成功完成复杂的移动操作任务,例如在行走过程中稳定地搬运物体,而基线方法则无法完成。

🎯 应用场景

该研究成果可应用于各种人型机器人移动操作任务,例如在复杂环境中进行物体搬运、装配等。其潜在应用领域包括:智能制造、医疗康复、灾难救援等。通过提高人型机器人的操作稳定性和适应性,可以使其在更多实际场景中发挥作用,提升工作效率和安全性。

📄 摘要(原文)

Arm end-effector stabilization is essential for humanoid loco-manipulation tasks, yet it remains challenging due to the high degrees of freedom and inherent dynamic instability of bipedal robot structures. Previous model-based controllers achieve precise end-effector control but rely on precise dynamics modeling and estimation, which often struggle to capture real-world factors (e.g., friction and backlash) and thus degrade in practice. On the other hand, learning-based methods can better mitigate these factors via exploration and domain randomization, and have shown potential in real-world use. However, they often overfit to training conditions, requiring retraining with the entire body, and still struggle to adapt to unseen scenarios. To address these challenges, we propose a novel stable end-effector control (SEEC) framework with model-enhanced residual learning that learns to achieve precise and robust end-effector compensation for lower-body induced disturbances through model-guided reinforcement learning (RL) with a perturbation generator. This design allows the upper-body policy to achieve accurate end-effector stabilization as well as adapt to unseen locomotion controllers with no additional training. We validate our framework in different simulators and transfer trained policies to the Booster T1 humanoid robot. Experiments demonstrate that our method consistently outperforms baselines and robustly handles diverse and demanding loco-manipulation tasks.