H2-COMPACT: Human-Humanoid Co-Manipulation via Adaptive Contact Trajectory Policies

📄 arXiv: 2505.17627v1 📥 PDF

作者: Geeta Chandra Raju Bethala, Hao Huang, Niraj Pudasaini, Abdullah Mohamed Ali, Shuaihang Yuan, Congcong Wen, Anthony Tzes, Yi Fang

分类: cs.RO

发布日期: 2025-05-23

备注: Code and videos available at https://h2compact.github.io/h2compact/


💡 一句话要点

提出H2-COMPACT框架,实现人-人形机器人基于触觉引导的协同负载搬运。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 人机协作 人形机器人 触觉引导 深度强化学习 行为克隆 负载搬运 运动控制

📋 核心要点

  1. 现有方法在人机协同搬运中,难以兼顾对人类意图的快速响应和机器人自身的稳定负载行走。
  2. H2-COMPACT框架通过解耦意图解释和腿式运动,分别学习力到速度的映射和速度到关节轨迹的映射。
  3. 实验表明,该框架在真实机器人上实现了与人类相当的协同搬运性能,无需运动捕捉系统。

📝 摘要(中文)

本文提出了一种分层策略学习框架,使腿式人形机器人仅使用触觉线索进行意图推断,即可与人类伙伴协同搬运扩展负载。在上层,一个轻量级的行为克隆网络消耗来自双腕传感器的六轴力/力矩流,并输出捕捉领导者施加力的全身平面速度命令。在下层,一个深度强化学习策略,在Isaac Gym中经过随机有效载荷(0-3 kg)和摩擦条件下的训练,并在MuJoCo和真实的Unitree G1上进行了验证,将这些高级扭转映射到稳定的、负载下的关节轨迹。通过将意图解释(力->速度)与腿式运动(速度->关节)解耦,我们的方法将对人类输入的直观响应与鲁棒的、负载自适应的行走相结合。我们收集训练数据时无需运动捕捉或标记,仅需同步的RGB视频和力/力矩读数,并采用SAM2和WHAM来提取3D人体姿势和速度。在真实世界的试验中,我们的人形机器人在协同搬运和移动性能(完成时间、轨迹偏差、速度同步和跟随者力)方面与蒙眼的人类跟随者基线相当。这项工作首次展示了融合了全身腿式控制的学习触觉引导,用于流畅的人-人形机器人协同操作。

🔬 方法详解

问题定义:现有的人形机器人协同搬运方法通常依赖于视觉或复杂的运动捕捉系统来理解人类的意图,这限制了其在实际场景中的应用。此外,如何让人形机器人在负载变化的情况下保持稳定行走,并对人类的引导做出快速响应,是一个挑战。

核心思路:H2-COMPACT的核心思路是将人机协同搬运任务分解为两个层次:上层负责意图理解,将人类施加的力/力矩转化为机器人期望的运动速度;下层负责运动控制,将期望的速度转化为机器人关节的控制指令,并保证机器人在负载下的稳定行走。这种解耦的设计使得系统可以独立优化意图理解和运动控制,从而提高整体性能。

技术框架:H2-COMPACT框架包含两个主要模块:行为克隆网络和深度强化学习策略。行为克隆网络接收来自腕部传感器的力/力矩数据,输出机器人的平面速度命令。深度强化学习策略接收速度命令,并输出机器人的关节轨迹。训练数据通过同步RGB视频和力/力矩读数收集,并使用SAM2和WHAM提取3D人体姿势和速度。

关键创新:该方法的主要创新在于将意图理解和运动控制解耦,并分别使用行为克隆和深度强化学习进行优化。这种解耦的设计使得系统可以更好地适应不同的负载和环境条件,并对人类的引导做出快速响应。此外,该方法仅使用RGB视频和力/力矩读数进行训练,无需运动捕捉系统,降低了部署成本。

关键设计:行为克隆网络采用轻量级结构,以保证实时性。深度强化学习策略在Isaac Gym中进行训练,并使用随机化的负载和摩擦条件来提高泛化能力。损失函数包括轨迹偏差、速度同步和跟随者力等指标,以优化协同搬运性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,H2-COMPACT框架在真实Unitree G1机器人上实现了与蒙眼人类跟随者相当的协同搬运性能。在完成时间、轨迹偏差、速度同步和跟随者力等指标上,机器人与人类基线表现接近。该方法无需运动捕捉系统,降低了部署成本,并提高了系统的鲁棒性。

🎯 应用场景

该研究成果可应用于物流搬运、建筑工地辅助、灾难救援等场景,使人形机器人能够与人类协同完成复杂的搬运任务。通过触觉引导,机器人可以更好地理解人类的意图,提高工作效率和安全性。未来,该技术有望应用于更广泛的人机协作领域,例如医疗康复、智能家居等。

📄 摘要(原文)

We present a hierarchical policy-learning framework that enables a legged humanoid to cooperatively carry extended loads with a human partner using only haptic cues for intent inference. At the upper tier, a lightweight behavior-cloning network consumes six-axis force/torque streams from dual wrist-mounted sensors and outputs whole-body planar velocity commands that capture the leader's applied forces. At the lower tier, a deep-reinforcement-learning policy, trained under randomized payloads (0-3 kg) and friction conditions in Isaac Gym and validated in MuJoCo and on a real Unitree G1, maps these high-level twists to stable, under-load joint trajectories. By decoupling intent interpretation (force -> velocity) from legged locomotion (velocity -> joints), our method combines intuitive responsiveness to human inputs with robust, load-adaptive walking. We collect training data without motion-capture or markers, only synchronized RGB video and F/T readings, employing SAM2 and WHAM to extract 3D human pose and velocity. In real-world trials, our humanoid achieves cooperative carry-and-move performance (completion time, trajectory deviation, velocity synchrony, and follower-force) on par with a blindfolded human-follower baseline. This work is the first to demonstrate learned haptic guidance fused with full-body legged control for fluid human-humanoid co-manipulation. Code and videos are available on the H2-COMPACT website.