Imagine2Real: Towards Zero-shot Humanoid-Object Interaction via Video Generative Priors

作者: Jiahe Chen, ZiRui Wang, Feiyu Jia, Xiao Chen, Xiaojie Niu, Weishuai Zeng, Tianfan Xue, Xiaowei Zhou, Jiangmiao Pang, Jingbo Wang

分类: cs.RO, cs.CV

发布日期: 2026-05-21

💡 一句话要点

Imagine2Real：通过视频生成先验实现零样本人机交互

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱五：交互与反应 (Interaction & Reaction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 人机交互 视频生成先验 零样本学习 机器人控制 行为基础模型 关键点跟踪 4D点轨迹

📋 核心要点

现有全身人机交互方法依赖几何先验，导致表示不对齐和重定向复杂性。
Imagine2Real将机器人和物体运动统一为4D点轨迹，并利用稀疏关键点跟踪避免重定向。
该方法利用行为基础模型的潜在空间保持步态自然，并通过渐进式训练实现零样本物理部署。

📝 摘要（中文）

全身人机交互(HOI)受限于高保真3D数据的稀缺性。视频生成先验提供了一种有希望的替代方案，但现有方法存在 extit{表示不对齐}（由于依赖几何先验，例如显式CAD模型）和 extit{重定向复杂性}（源于密集的变形和形态不匹配）的问题。我们提出了Imagine2Real，一个用于灵活、无几何交互的零样本HOI框架。为了解决不对齐问题，我们将机器人和物体的运动表示为统一的4D点轨迹。为了克服重定向复杂性，我们的关键点跟踪器仅跟踪稀疏的关键点（基座、手和物体），完全绕过了误差放大的重定向过程。为了在这些稀疏信号下保持自然的步态，我们利用行为基础模型(BFM)的潜在空间作为跟踪器的搜索域。通过渐进式训练策略，Imagine2Real通过简单的跟踪奖励学习鲁棒的行为，从而能够在运动捕捉(mocap)系统中进行零样本物理部署。

🔬 方法详解

问题定义：现有全身人机交互方法主要依赖于显式的几何模型（如CAD模型）作为先验知识，这导致了两个主要问题：一是机器人和物体在表示上的不对齐，难以建立有效的交互关系；二是需要进行复杂的重定向过程，将生成的运动适配到真实的机器人身上，这容易放大误差，导致最终效果不佳。因此，如何摆脱对几何模型的依赖，实现更灵活、更鲁棒的人机交互是本文要解决的核心问题。

核心思路：本文的核心思路是利用视频生成先验，直接从视频数据中学习人机交互的模式，而无需显式的几何建模。为了解决表示不对齐的问题，作者将机器人和物体的运动统一表示为4D点轨迹。为了避免重定向的复杂性，作者只跟踪稀疏的关键点，并利用行为基础模型的潜在空间来约束机器人的运动，从而保证运动的自然性。

技术框架：Imagine2Real框架主要包含以下几个模块：1) 关键点跟踪器：用于跟踪视频中的关键点（机器人基座、手和物体）；2) 行为基础模型(BFM)：用于生成自然的机器人运动；3) 运动控制器：用于将生成的运动指令发送给真实的机器人。整个流程如下：首先，关键点跟踪器从视频中提取关键点轨迹；然后，利用BFM的潜在空间，将关键点轨迹转换为机器人的运动指令；最后，运动控制器将运动指令发送给真实的机器人，实现人机交互。

关键创新：本文最重要的技术创新点在于提出了一个完全无几何的HOI框架，通过统一的4D点轨迹表示和稀疏关键点跟踪，避免了对显式几何模型的依赖和复杂的重定向过程。此外，利用行为基础模型的潜在空间来约束机器人的运动，保证了运动的自然性。

关键设计：在训练过程中，作者采用了渐进式训练策略，首先训练关键点跟踪器，然后训练BFM，最后将两者结合起来进行端到端的训练。损失函数主要包括跟踪损失和运动自然性损失。跟踪损失用于保证关键点跟踪的准确性，运动自然性损失用于保证机器人运动的自然性。具体参数设置和网络结构等技术细节在论文中有详细描述。

🖼️ 关键图片

📊 实验亮点

论文提出的Imagine2Real框架实现了零样本人机交互，无需显式的几何建模和复杂的重定向过程。实验结果表明，该方法能够生成自然的机器人运动，并成功地在真实的机器人平台上进行了部署。具体的性能数据和对比基线在论文中有详细描述。

🎯 应用场景

该研究成果可应用于各种人机协作场景，例如智能制造、医疗康复、家庭服务等。通过零样本学习，机器人可以快速适应新的交互任务，无需大量人工干预。未来，该技术有望推动人机交互向更智能、更灵活的方向发展，实现更高效、更安全的人机协作。

📄 摘要（原文）

Whole-body Humanoid-Object Interaction (HOI) is bottlenecked by the scarcity of high-fidelity 3D data. While video generative priors offer a promising alternative, existing methods suffer from \textit{Representation Misalignment} due to their reliance on geometric priors (e.g., explicit CAD models), and \textit{Retargeting Complexity} arising from intensive morphing and morphological mismatch. We propose Imagine2Real, a zero-shot HOI framework for flexible, geometry-free interaction. To resolve misalignment, we formulate robot and object motions as unified 4D point trajectories. To overcome retargeting complexity, our Keypoints Tracker tracks only sparse critical points (base, hands, and object), entirely bypassing the error-amplifying retargeting process. To maintain natural gaits despite these sparse signals, we utilize the latent space of a Behavior Foundation Model (BFM) as the tracker's search domain. Using a progressive training strategy, Imagine2Real learns robust behaviors with simple tracking rewards, enabling zero-shot physical deployment within a motion capture(mocap) system.

Imagine2Real: Towards Zero-shot Humanoid-Object Interaction via Video Generative Priors

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理