Morphology-Consistent Humanoid Interaction through Robot-Centric Video Synthesis

作者: Weisheng Xu, Jian Li, Yi Gu, Bin Yang, Haodong Chen, Shuyi Lin, Mingqian Zhou, Jing Tan, Qiwei Wu, Xiangrui Jiang, Taowen Wang, Jiawen Wen, Qiwei Liang, Jiaxi Zhang, Renjing Xu

分类: cs.RO

发布日期: 2026-03-20

💡 一句话要点

Dream2Act：通过机器人中心视频合成实现形态一致的人形机器人交互

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱六：视频提取与匹配 (Video Extraction) 支柱七：动作重定向 (Motion Retargeting)

关键词: 人形机器人 视频合成 运动规划 零样本学习 机器人交互

📋 核心要点

现有基于学习的机器人交互策略面临数据收集成本高昂的难题，而基于人体姿态估计的运动重定向方法存在形态差异问题。
Dream2Act框架通过生成机器人中心视角的视频，从中提取机器人原生的关节轨迹，避免了人体姿态估计和运动重定向带来的误差。
实验表明，Dream2Act在多个全身移动交互任务中显著优于传统重定向方法，成功率从0%提升至37.5%。

📝 摘要（中文）

本研究提出Dream2Act，一个机器人中心的框架，通过生成视频合成实现零样本交互。给定机器人和目标物体的第三人称视角图像，该框架利用视频生成模型来设想机器人完成任务，并生成形态一致的运动。通过高保真姿态提取系统，从这些合成的“梦想”中恢复出物理上可行的、机器人原生的关节轨迹，并通过通用全身控制器执行。Dream2Act完全在机器人原生坐标空间中运行，避免了重定向误差，并消除了特定任务的策略训练。在Unitree G1上，针对踢球、沙发坐、打沙袋和拥抱盒子四个全身移动交互任务进行了评估。Dream2Act实现了37.5%的总体成功率，而传统重定向方法的成功率为0%。

🔬 方法详解

问题定义：现有的人形机器人交互方法主要面临两个问题：一是基于学习的方法需要大量数据，成本高昂；二是基于人体姿态估计（如SMPL）的运动重定向方法，由于人体和机器人形态差异，导致空间错位，影响交互成功。传统重定向方法在移动过程中误差累积，无法建立正确的物理接触。

核心思路：Dream2Act的核心思路是避免以人为中心的姿态估计和运动重定向，直接在机器人自身的坐标空间中生成交互动作。通过视频生成模型“梦想”机器人完成任务的场景，并从中提取机器人可执行的运动轨迹。这样可以保证生成运动的形态与机器人一致，避免重定向误差。

技术框架：Dream2Act框架包含以下几个主要阶段：1) 输入：给定机器人和目标物体的第三人称视角图像；2) 视频生成：利用视频生成模型，根据输入图像生成机器人与物体交互的视频，模拟机器人完成任务的过程；3) 姿态提取：从生成的视频中提取机器人的关节轨迹，使用高保真姿态提取系统，确保提取的轨迹在物理上可行；4) 运动控制：使用通用全身控制器，根据提取的关节轨迹控制机器人执行动作。

关键创新：Dream2Act最重要的创新在于其机器人中心的视角和基于视频生成的运动规划方法。与传统的以人为中心的运动重定向方法不同，Dream2Act直接在机器人坐标空间中生成运动，避免了形态差异带来的误差。此外，利用视频生成模型进行运动规划，可以实现零样本交互，无需针对特定任务进行策略训练。

关键设计：论文中没有详细说明视频生成模型的具体结构和参数设置，以及姿态提取系统的具体算法。这些细节可能依赖于现有的视频生成和姿态估计技术。全身控制器采用通用的控制器，没有针对特定任务进行优化。损失函数和网络结构等细节未知。

🖼️ 关键图片

📊 实验亮点

Dream2Act在Unitree G1机器人上进行了实验，针对踢球、沙发坐、打沙袋和拥抱盒子四个全身移动交互任务进行了评估。实验结果表明，Dream2Act的总体成功率为37.5%，而传统重定向方法的成功率为0%。这表明Dream2Act能够有效解决形态差异问题，实现可靠的物理接触和更高的任务完成率。

🎯 应用场景

Dream2Act具有广泛的应用前景，可用于提升人形机器人在家庭服务、工业制造、医疗康复等领域的交互能力。该方法无需大量数据训练，降低了机器人应用门槛。通过生成视频进行运动规划，可以使机器人更好地适应复杂环境和多样化任务，实现更自然、更高效的人机协作。

📄 摘要（原文）

Equipping humanoid robots with versatile interaction skills typically requires either extensive policy training or explicit human-to-robot motion retargeting. However, learning-based policies face prohibitive data collection costs. Meanwhile, retargeting relies on human-centric pose estimation (e.g., SMPL), introducing a morphology gap. Skeletal scale mismatches result in severe spatial misalignments when mapped to robots, compromising interaction success. In this work, we propose Dream2Act, a robot-centric framework enabling zero-shot interaction through generative video synthesis. Given a third-person image of the robot and target object, our framework leverages video generation models to envision the robot completing the task with morphology-consistent motion. We employ a high-fidelity pose extraction system to recover physically feasible, robot-native joint trajectories from these synthesized dreams, subsequently executed via a general-purpose whole-body controller. Operating strictly within the robot-native coordinate space, Dream2Act avoids retargeting errors and eliminates task-specific policy training. We evaluate Dream2Act on the Unitree G1 across four whole-body mobile interaction tasks: ball kicking, sofa sitting, bag punching, and box hugging. Dream2Act achieves a 37.5% overall success rate, compared to 0% for conventional retargeting. While retargeting fails to establish correct physical contacts due to the morphology gap (with errors compounded during locomotion), Dream2Act maintains robot-consistent spatial alignment, enabling reliable contact formation and substantially higher task completion.

Morphology-Consistent Humanoid Interaction through Robot-Centric Video Synthesis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理