HDMI: Learning Interactive Humanoid Whole-Body Control from Human Videos

作者: Haoyang Weng, Yitang Li, Nikhil Sobanbabu, Zihan Wang, Zhengyi Luo, Tairan He, Deva Ramanan, Guanya Shi

分类: cs.RO

发布日期: 2025-09-20 (更新: 2025-09-27)

备注: website: hdmi-humanoid.github.io

💡 一句话要点

HDMI：从人类视频学习交互式人形机器人全身控制

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱二：RL算法与架构 (RL & Architecture) 支柱五：交互与反应 (Interaction & Reaction)

关键词: 人形机器人控制 模仿学习 强化学习 人机交互 sim-to-real 单目视觉 全身控制

📋 核心要点

现有方法在人形机器人与物体交互控制方面面临运动数据稀缺和接触密集性的挑战。
HDMI通过模仿学习，从单目视频中提取人和物体轨迹，训练强化学习策略，实现机器人与物体的协同控制。
在真实机器人上的实验表明，HDMI能够成功完成多种交互任务，验证了其鲁棒性和通用性。

📝 摘要（中文）

本文提出HDMI（HumanoiD iMitation for Interaction），一个简单通用的框架，直接从单目RGB视频中学习人形机器人与物体的全身交互技能。该流程首先从无约束视频中提取并重定向人和物体的轨迹，构建结构化运动数据集；然后训练一个强化学习（RL）策略，通过统一的物体表示、残差动作空间和通用交互奖励来协同跟踪机器人和物体的状态；最后，将RL策略零样本部署到真实的人形机器人上。在优傲腾G1人形机器人上的大量sim-to-real实验表明了该方法的鲁棒性和通用性：HDMI实现了67次连续的开门动作，并在现实世界中成功执行了6个不同的loco-manipulation任务，在模拟环境中成功执行了14个任务。实验结果表明，HDMI是一个从人类视频中获取交互式人形机器人技能的简单通用框架。

🔬 方法详解

问题定义：现有的人形机器人全身控制方法，尤其是在与物体交互的场景下，面临着运动数据稀缺的问题。同时，由于交互过程中存在大量的接触，使得控制策略的学习更加困难。因此，如何从有限的数据中学习到鲁棒且通用的交互控制策略是一个关键问题。

核心思路：HDMI的核心思路是通过模仿学习，从人类的交互视频中提取运动信息，并将其迁移到机器人身上。具体来说，首先从视频中提取人和物体的轨迹，然后利用这些轨迹训练一个强化学习策略，使得机器人能够模仿人类的动作，完成与物体的交互。这种方法可以有效地利用人类的先验知识，减少对大量机器人数据的依赖。

技术框架：HDMI的整体框架包含三个主要阶段：1) 数据集构建：从单目RGB视频中提取人和物体的轨迹，并将其重定向到机器人的运动空间，构建结构化的运动数据集。2) 策略训练：利用强化学习算法，训练一个能够协同跟踪机器人和物体状态的控制策略。3) 零样本部署：将训练好的策略直接部署到真实的人形机器人上，无需额外的微调。

关键创新：HDMI的关键创新在于其简单性和通用性。它能够直接从单目RGB视频中学习交互技能，无需复杂的传感器或人工标注。此外，HDMI采用了一种统一的物体表示方法，使得策略能够处理不同类型的物体。同时，残差动作空间的设计使得策略能够更好地利用机器人的运动学特性。

关键设计：HDMI的关键设计包括：1) 统一的物体表示：使用一种通用的表示方法来描述不同类型的物体，例如，使用物体的中心位置和旋转角度。2) 残差动作空间：将机器人的动作空间定义为残差动作，即相对于当前状态的增量。这种设计可以使得策略更容易学习到稳定的控制。3) 通用交互奖励：设计一种通用的奖励函数，鼓励机器人完成与物体的交互任务，例如，保持与物体的接触，或者将物体移动到目标位置。

📊 实验亮点

HDMI在Unitree G1人形机器人上进行了大量的sim-to-real实验。实验结果表明，HDMI能够成功地将模拟环境中学习到的策略迁移到真实机器人上，并完成各种交互任务。例如，HDMI实现了67次连续的开门动作，并在现实世界中成功执行了6个不同的loco-manipulation任务，在模拟环境中成功执行了14个任务。这些结果表明，HDMI具有很强的鲁棒性和通用性。

🎯 应用场景

HDMI具有广泛的应用前景，例如，它可以用于训练人形机器人完成各种家务任务，如开门、搬运物品等。此外，HDMI还可以应用于工业自动化领域，例如，训练机器人进行装配、焊接等操作。该研究的实际价值在于降低了人形机器人控制策略的学习成本，使得机器人能够更快地适应新的任务。未来，HDMI可以进一步扩展到更复杂的交互场景，例如，多人协作、动态环境等。

📄 摘要（原文）

Enabling robust whole-body humanoid-object interaction (HOI) remains challenging due to motion data scarcity and the contact-rich nature. We present HDMI (HumanoiD iMitation for Interaction), a simple and general framework that learns whole-body humanoid-object interaction skills directly from monocular RGB videos. Our pipeline (i) extracts and retargets human and object trajectories from unconstrained videos to build structured motion datasets, (ii) trains a reinforcement learning (RL) policy to co-track robot and object states with three key designs: a unified object representation, a residual action space, and a general interaction reward, and (iii) zero-shot deploys the RL policies on real humanoid robots. Extensive sim-to-real experiments on a Unitree G1 humanoid demonstrate the robustness and generality of our approach: HDMI achieves 67 consecutive door traversals and successfully performs 6 distinct loco-manipulation tasks in the real world and 14 tasks in simulation. Our results establish HDMI as a simple and general framework for acquiring interactive humanoid skills from human videos.

HDMI: Learning Interactive Humanoid Whole-Body Control from Human Videos

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册