HDMI: Learning Interactive Humanoid Whole-Body Control from Human Videos

作者: Haoyang Weng, Yitang Li, Nikhil Sobanbabu, Zihan Wang, Zhengyi Luo, Tairan He, Deva Ramanan, Guanya Shi

分类: cs.RO

发布日期: 2025-09-20 (更新: 2025-09-27)

备注: website: hdmi-humanoid.github.io

💡 一句话要点

HDMI：从人类视频学习交互式人形机器人全身控制

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱五：交互与反应 (Interaction & Reaction)

关键词: 人形机器人控制 模仿学习 强化学习 人机交互 sim-to-real 单目视觉 全身控制

📋 核心要点

现有方法在人形机器人与物体交互的全身控制方面面临运动数据稀缺和接触密集性的挑战。
HDMI通过模仿学习，从单目RGB视频中提取人和物体的运动轨迹，并训练强化学习策略来实现机器人与物体的协同控制。
在真实机器人上的实验表明，HDMI能够成功执行多种loco-manipulation任务，验证了其鲁棒性和通用性。

📝 摘要（中文）

本文提出HDMI（HumanoiD iMitation for Interaction），一个简单通用的框架，直接从单目RGB视频中学习人形机器人与物体交互的全身控制技能。该流程首先从无约束视频中提取并重定向人和物体的轨迹，构建结构化运动数据集；然后训练一个强化学习（RL）策略，通过统一的物体表示、残差动作空间和通用交互奖励来协同跟踪机器人和物体的状态；最后，将RL策略零样本部署到真实的人形机器人上。在优傲腾G1人形机器人上的大量sim-to-real实验表明了该方法的鲁棒性和通用性：HDMI实现了67次连续的开门动作，并在现实世界中成功执行了6个不同的loco-manipulation任务，在模拟环境中成功执行了14个任务。实验结果表明，HDMI是一个从人类视频中获取交互式人形机器人技能的简单通用框架。

🔬 方法详解

问题定义：现有的人形机器人全身控制方法，尤其是在与物体交互的场景下，面临着运动数据不足的难题。获取高质量的机器人与物体交互数据成本高昂，并且真实世界中的交互具有高度的复杂性和多样性，难以通过传统方法进行建模和控制。因此，如何利用现有的、易于获取的人类交互视频数据来训练机器人，是一个亟待解决的问题。

核心思路：HDMI的核心思路是通过模仿学习，将人类的交互行为迁移到机器人身上。具体来说，它首先从人类视频中提取人和物体的运动轨迹，然后利用这些轨迹作为训练数据，训练一个强化学习策略，使机器人能够模仿人类的交互行为。这种方法避免了直接在机器人上进行数据采集的困难，并且可以利用大量现有的视频数据。

技术框架：HDMI的整体框架包含三个主要阶段：1) 数据提取与重定向：从单目RGB视频中提取人和物体的三维运动轨迹，并将这些轨迹重定向到机器人和物体的坐标系中，构建结构化的运动数据集。2) 强化学习策略训练：利用重定向后的数据，训练一个强化学习策略，该策略以机器人和物体的状态作为输入，输出机器人的动作。3) 零样本部署：将训练好的强化学习策略直接部署到真实的人形机器人上，无需进行额外的微调。

关键创新：HDMI的关键创新在于其能够直接从单目RGB视频中学习人形机器人与物体交互的全身控制技能。与传统的需要大量机器人数据或人工设计的控制策略相比，HDMI的方法更加简单、通用和高效。此外，HDMI还提出了统一的物体表示、残差动作空间和通用交互奖励等关键设计，进一步提高了策略的性能和鲁棒性。

关键设计：HDMI的关键设计包括：1) 统一的物体表示：使用统一的表示方法来描述不同类型的物体，使得策略能够处理各种各样的交互任务。2) 残差动作空间：使用残差动作空间来控制机器人的动作，可以提高策略的稳定性和精度。3) 通用交互奖励：设计一个通用的交互奖励函数，鼓励机器人完成各种交互任务，例如开门、推箱子等。

🖼️ 关键图片

📊 实验亮点

HDMI在Unitree G1人形机器人上进行了大量的sim-to-real实验，结果表明该方法具有很强的鲁棒性和通用性。在开门任务中，HDMI实现了67次连续的成功穿越。在现实世界中，HDMI成功执行了6个不同的loco-manipulation任务，例如推箱子、开门等。在模拟环境中，HDMI成功执行了14个任务。这些实验结果表明，HDMI是一个从人类视频中获取交互式人形机器人技能的有效方法。

🎯 应用场景

HDMI技术具有广泛的应用前景，例如在家庭服务机器人、工业自动化、医疗康复等领域。它可以使机器人能够更好地理解和模仿人类的交互行为，从而完成更加复杂的任务。例如，家庭服务机器人可以利用HDMI技术来学习如何开门、拿取物品等，从而更好地为人类提供服务。在工业自动化领域，机器人可以利用HDMI技术来学习如何操作各种工具和设备，从而提高生产效率。在医疗康复领域，机器人可以利用HDMI技术来辅助患者进行康复训练。

📄 摘要（原文）

Enabling robust whole-body humanoid-object interaction (HOI) remains challenging due to motion data scarcity and the contact-rich nature. We present HDMI (HumanoiD iMitation for Interaction), a simple and general framework that learns whole-body humanoid-object interaction skills directly from monocular RGB videos. Our pipeline (i) extracts and retargets human and object trajectories from unconstrained videos to build structured motion datasets, (ii) trains a reinforcement learning (RL) policy to co-track robot and object states with three key designs: a unified object representation, a residual action space, and a general interaction reward, and (iii) zero-shot deploys the RL policies on real humanoid robots. Extensive sim-to-real experiments on a Unitree G1 humanoid demonstrate the robustness and generality of our approach: HDMI achieves 67 consecutive door traversals and successfully performs 6 distinct loco-manipulation tasks in the real world and 14 tasks in simulation. Our results establish HDMI as a simple and general framework for acquiring interactive humanoid skills from human videos.

HDMI: Learning Interactive Humanoid Whole-Body Control from Human Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理