Thor: Towards Human-Level Whole-Body Reactions for Intense Contact-Rich Environments

📄 arXiv: 2510.26280v2 📥 PDF

作者: Gangyang Li, Qing Shi, Youhao Hu, Jincheng Hu, Zhongyuan Wang, Xinlong Wang, Shaqi Luo

分类: cs.RO

发布日期: 2025-10-30 (更新: 2025-11-05)


💡 一句话要点

Thor框架:实现人型机器人在强接触环境中类人全身反应

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 人型机器人 强化学习 力交互 全身控制 类人反应

📋 核心要点

  1. 现有方法难以使人型机器人在强接触环境中产生类人的、自适应的全身反应,这是服务、工业和救援应用中的关键挑战。
  2. Thor框架通过力自适应躯干倾斜奖励函数和解耦的强化学习架构,鼓励机器人产生类似人类的受力反应,并降低控制复杂度。
  3. 实验表明,Thor在宇树G1上显著提升了力交互性能,例如拉力提升高达74.7%,并能完成拉动货架和开门等复杂任务。

📝 摘要(中文)

本文提出了一种名为Thor的人形机器人框架,旨在实现人型机器人在接触丰富的环境中达到人类水平的全身反应。该框架基于机器人受力分析,设计了一种力自适应躯干倾斜(FAT2)奖励函数,以鼓励人型机器人在力交互任务中表现出类似人类的反应。为了缓解人形机器人控制的高维挑战,Thor引入了一种强化学习架构,将上身、腰部和下身解耦,每个组件共享全身的全局观测并联合更新其参数。Thor在宇树G1上进行了部署,并在力交互任务中显著优于基线方法。机器人后拉力峰值为167.7 N(约占G1体重的48%),前拉力峰值为145.5 N,与最佳基线相比分别提高了68.9%和74.7%。此外,Thor还能够拉动装载的架子(130 N)并用一只手打开防火门(60 N)。这些结果突显了Thor在增强人形机器人力交互能力方面的有效性。

🔬 方法详解

问题定义:论文旨在解决人型机器人在复杂、接触丰富的环境中,难以实现像人类一样自然、稳定和高效的全身反应的问题。现有的控制方法通常难以处理高维状态空间、复杂的动力学模型以及不确定的外部干扰,导致机器人动作僵硬、反应迟缓,无法胜任需要精细力控制的任务。

核心思路:论文的核心思路是模仿人类在受力时的反应机制,特别是躯干的倾斜动作,并将其融入到机器人的控制策略中。通过设计力自适应的奖励函数,引导机器人学习如何利用躯干倾斜来平衡外部作用力,从而提高稳定性和操作效率。同时,采用解耦的强化学习架构,降低控制的维度,提高训练效率。

技术框架:Thor框架主要包含以下几个模块:1) 环境交互模块:负责模拟机器人与环境的物理交互,提供力反馈和状态信息。2) 状态观测模块:收集机器人的关节角度、速度、力传感器数据等,形成全局观测。3) 解耦控制模块:将机器人分为上身、腰部和下身三个部分,分别由独立的策略网络控制。4) 力自适应奖励模块:根据机器人受力情况,计算力自适应躯干倾斜(FAT2)奖励,引导机器人学习类人反应。5) 强化学习训练模块:使用PPO等算法训练策略网络,优化机器人的控制策略。

关键创新:论文最重要的技术创新点在于力自适应躯干倾斜(FAT2)奖励函数的设计。该奖励函数能够根据机器人受到的外部作用力,动态调整躯干倾斜的目标,从而鼓励机器人产生类似人类的受力反应。此外,解耦的强化学习架构也降低了控制的维度,提高了训练效率。

关键设计:FAT2奖励函数的具体形式未知,但其核心思想是根据外部作用力的大小和方向,调整躯干倾斜的角度和速度。解耦控制模块中,上身、腰部和下身分别使用独立的策略网络,但共享全局观测,并通过联合训练来协调动作。强化学习算法采用PPO,具体参数设置未知。

📊 实验亮点

Thor框架在宇树G1机器人上的实验结果显著。后拉力峰值达到167.7 N,约占G1体重的48%,相比最佳基线提高了68.9%。前拉力峰值为145.5 N,提升了74.7%。此外,Thor还成功完成了拉动130 N的货架和单手打开60 N的防火门等复杂任务,证明了其在力交互方面的优越性能。

🎯 应用场景

Thor框架有望应用于服务机器人、工业机器人和救援机器人等领域。例如,在工业环境中,机器人可以利用Thor框架进行物料搬运、装配等需要精细力控制的任务。在救援场景中,机器人可以利用Thor框架在复杂地形中保持稳定,并进行搜救、清理障碍等任务。该研究的成果将推动人型机器人在实际应用中的普及。

📄 摘要(原文)

Humanoids hold great potential for service, industrial, and rescue applications, in which robots must sustain whole-body stability while performing intense, contact-rich interactions with the environment. However, enabling humanoids to generate human-like, adaptive responses under such conditions remains a major challenge. To address this, we propose Thor, a humanoid framework for human-level whole-body reactions in contact-rich environments. Based on the robot's force analysis, we design a force-adaptive torso-tilt (FAT2) reward function to encourage humanoids to exhibit human-like responses during force-interaction tasks. To mitigate the high-dimensional challenges of humanoid control, Thor introduces a reinforcement learning architecture that decouples the upper body, waist, and lower body. Each component shares global observations of the whole body and jointly updates its parameters. Finally, we deploy Thor on the Unitree G1, and it substantially outperforms baselines in force-interaction tasks. Specifically, the robot achieves a peak pulling force of 167.7 N (approximately 48% of the G1's body weight) when moving backward and 145.5 N when moving forward, representing improvements of 68.9% and 74.7%, respectively, compared with the best-performing baseline. Moreover, Thor is capable of pulling a loaded rack (130 N) and opening a fire door with one hand (60 N). These results highlight Thor's effectiveness in enhancing humanoid force-interaction capabilities.