Thor: Towards Human-Level Whole-Body Reactions for Intense Contact-Rich Environments

📄 arXiv: 2510.26280v2 📥 PDF

作者: Gangyang Li, Qing Shi, Youhao Hu, Jincheng Hu, Zhongyuan Wang, Xinlong Wang, Shaqi Luo

分类: cs.RO

发布日期: 2025-10-30 (更新: 2025-11-05)


💡 一句话要点

Thor框架:实现人型机器人在高强度接触环境中类人全身反应

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人型机器人 全身控制 强化学习 力交互 接触环境

📋 核心要点

  1. 现有方法难以使人型机器人在高强度、接触丰富的环境中产生类人的、适应性强的全身反应,这是机器人服务、工业和救援应用的关键挑战。
  2. Thor框架的核心在于力自适应躯干倾斜(FAT2)奖励函数,以及解耦上半身、腰部和下半身的强化学习架构,从而实现类人反应。
  3. 实验表明,Thor在Unitree G1上显著优于基线方法,在拉力任务中性能提升显著,并能完成拉动货架和开门等复杂任务。

📝 摘要(中文)

本文提出Thor,一个用于人型机器人在接触密集环境中实现类人全身反应的框架。基于机器人受力分析,设计了一种力自适应躯干倾斜(FAT2)奖励函数,以鼓励人型机器人在力交互任务中表现出类人的反应。为了缓解人型机器人控制的高维挑战,Thor引入了一种强化学习架构,将上半身、腰部和下半身解耦。每个组件共享全身的全局观测,并联合更新其参数。Thor在Unitree G1上进行了部署,并在力交互任务中显著优于基线方法。具体来说,机器人在后退时达到了167.7 N(约占G1体重的48%)的峰值拉力,前进时达到了145.5 N,与表现最佳的基线相比,分别提高了68.9%和74.7%。此外,Thor还能够拉动装载的架子(130 N)并用一只手打开防火门(60 N)。这些结果突出了Thor在增强人型机器人力交互能力方面的有效性。

🔬 方法详解

问题定义:论文旨在解决人型机器人在高强度接触环境中难以产生类人全身反应的问题。现有方法通常难以在复杂环境中实现稳定且自然的力交互,尤其是在需要全身协调的情况下。痛点在于如何让人型机器人像人类一样,根据受力情况调整姿态,保持平衡并完成任务。

核心思路:论文的核心思路是设计一个能够模拟人类在受力时躯干倾斜反应的奖励函数,并结合解耦的强化学习架构,让人型机器人在训练过程中学习到类人的全身协调策略。通过力自适应躯干倾斜(FAT2)奖励函数,鼓励机器人在受力时做出自然的躯干倾斜动作,从而提高稳定性和力交互能力。

技术框架:Thor框架主要包含三个部分:力分析模块、力自适应躯干倾斜(FAT2)奖励函数和解耦的强化学习架构。首先,通过力分析模块获取机器人当前的受力情况。然后,FAT2奖励函数根据受力情况,引导机器人做出相应的躯干倾斜动作。最后,解耦的强化学习架构将机器人的控制分为上半身、腰部和下半身三个部分,每个部分共享全局观测,并联合更新参数,从而降低控制难度。

关键创新:最重要的技术创新点在于力自适应躯干倾斜(FAT2)奖励函数和解耦的强化学习架构。FAT2奖励函数能够有效地引导机器人学习类人的躯干倾斜反应,而解耦的强化学习架构则降低了高维控制的难度,使得训练更加稳定和高效。与现有方法相比,Thor能够更好地模拟人类的全身协调能力,从而在力交互任务中表现出更强的稳定性和适应性。

关键设计:FAT2奖励函数的设计关键在于如何准确地模拟人类的躯干倾斜反应。论文通过分析人类在受力时的姿态变化,设计了一个与受力方向和大小相关的奖励函数。解耦的强化学习架构中,每个部分的网络结构和参数设置都需要仔细调整,以保证各个部分能够协同工作,共同完成任务。此外,全局观测的设计也至关重要,需要包含足够的信息,以便每个部分能够了解全身的状态。

🖼️ 关键图片

img_0

📊 实验亮点

Thor在Unitree G1上进行了实验验证,结果表明其在力交互任务中显著优于基线方法。具体来说,机器人在后退时达到了167.7 N的峰值拉力(约占G1体重的48%),前进时达到了145.5 N,与表现最佳的基线相比,分别提高了68.9%和74.7%。此外,Thor还能够拉动装载的架子(130 N)并用一只手打开防火门(60 N),展示了其强大的力交互能力。

🎯 应用场景

该研究成果可应用于服务机器人、工业机器人和救援机器人等领域。例如,在工业环境中,人型机器人可以利用该技术进行重物搬运、设备维护等工作。在救援场景中,机器人可以利用该技术在复杂地形中保持平衡,并进行人员搜救和物资运输。未来,该技术有望进一步提升人型机器人的智能化水平,使其能够更好地适应各种复杂环境。

📄 摘要(原文)

Humanoids hold great potential for service, industrial, and rescue applications, in which robots must sustain whole-body stability while performing intense, contact-rich interactions with the environment. However, enabling humanoids to generate human-like, adaptive responses under such conditions remains a major challenge. To address this, we propose Thor, a humanoid framework for human-level whole-body reactions in contact-rich environments. Based on the robot's force analysis, we design a force-adaptive torso-tilt (FAT2) reward function to encourage humanoids to exhibit human-like responses during force-interaction tasks. To mitigate the high-dimensional challenges of humanoid control, Thor introduces a reinforcement learning architecture that decouples the upper body, waist, and lower body. Each component shares global observations of the whole body and jointly updates its parameters. Finally, we deploy Thor on the Unitree G1, and it substantially outperforms baselines in force-interaction tasks. Specifically, the robot achieves a peak pulling force of 167.7 N (approximately 48% of the G1's body weight) when moving backward and 145.5 N when moving forward, representing improvements of 68.9% and 74.7%, respectively, compared with the best-performing baseline. Moreover, Thor is capable of pulling a loaded rack (130 N) and opening a fire door with one hand (60 N). These results highlight Thor's effectiveness in enhancing humanoid force-interaction capabilities.