OmniHumanoid: Streaming Cross-Embodiment Video Generation with Paired-Free Adaptation

📄 arXiv: 2605.12038v1 📥 PDF

作者: Yiren Song, Xiyao Deng, Pei Yang, Yihan Wang, Mike Zheng Shou

分类: cs.CV

发布日期: 2026-05-12


💡 一句话要点

OmniHumanoid:提出一种无需配对数据自适应的跨具身人形视频生成框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱七:动作重定向 (Motion Retargeting)

关键词: 跨具身视频生成 运动转移 具身自适应 无配对学习 人形机器人

📋 核心要点

  1. 现有跨具身视频生成方法难以解耦运动和外观,且依赖配对数据,限制了对新机器人的泛化能力。
  2. OmniHumanoid通过学习共享运动转移模型和具身特定适配器,实现了运动解耦和无配对数据自适应。
  3. 实验表明,OmniHumanoid在运动保真度和具身一致性方面表现出色,并能有效适应未见过的具身。

📝 摘要(中文)

本文提出OmniHumanoid框架,用于跨具身人形的视频生成,旨在将运动从一个具身转移到另一个具身,例如人到机器人和机器人到机器人,从而为具身智能实现可扩展的数据生成。该领域的主要挑战是,运动动力学在不同具身之间部分可转移,而外观和形态仍然是具身特定的。现有方法通常纠缠这些因素,并且许多方法需要每个目标具身的配对数据,这限制了对新机器人的可扩展性。OmniHumanoid分解了可转移的运动学习和具身特定的自适应。该方法从跨多个具身的运动对齐配对视频中学习共享的运动转移模型,同时仅使用非配对视频通过轻量级的具身特定适配器来适应新的具身。为了减少运动转移和具身自适应之间的干扰,进一步引入了分支隔离的注意力设计,该设计将运动条件与具身特定的调制分开。此外,构建了一个合成的跨具身数据集,其中包含在各种人形资产、场景和视点中渲染的运动对齐配对视频。在合成和真实世界基准上的实验表明,OmniHumanoid实现了强大的运动保真度和具身一致性,同时实现了对未见人形具身的可扩展自适应,而无需重新训练共享运动模型。

🔬 方法详解

问题定义:跨具身视频生成旨在将运动从一个具身(例如人)转移到另一个具身(例如机器人),难点在于运动动力学具有可转移性,而外观和形态是具身特定的。现有方法通常将这些因素纠缠在一起,并且需要每个目标具身的配对数据,这限制了其在新机器人上的可扩展性。

核心思路:OmniHumanoid的核心思路是将运动学习和具身自适应解耦。通过学习一个共享的运动转移模型来捕捉不同具身之间可转移的运动信息,然后使用轻量级的具身特定适配器来调整外观和形态,从而实现对新具身的快速适应,而无需重新训练整个模型。

技术框架:OmniHumanoid框架包含两个主要部分:共享运动转移模型和具身特定适配器。共享运动转移模型从运动对齐的配对视频中学习,捕捉通用的运动模式。具身特定适配器则使用非配对视频进行训练,学习如何将共享运动转移模型生成的运动映射到特定具身的外观和形态。为了减少运动转移和具身自适应之间的干扰,采用了分支隔离的注意力机制。

关键创新:OmniHumanoid的关键创新在于其解耦的运动学习和具身自适应方法,以及分支隔离的注意力机制。与现有方法相比,OmniHumanoid不需要配对数据,并且能够更好地分离运动和外观,从而提高了泛化能力。

关键设计:分支隔离的注意力机制是关键设计之一,它将运动条件和具身特定的调制分开,减少了它们之间的干扰。具体来说,模型包含两个分支:一个分支处理运动信息,另一个分支处理具身信息。注意力机制分别在两个分支内进行,然后将两个分支的输出进行融合。损失函数包括运动保真度损失和具身一致性损失,用于确保生成的视频在运动上与输入一致,并且在外观上与目标具身一致。

📊 实验亮点

OmniHumanoid在合成和真实世界数据集上进行了评估,结果表明其在运动保真度和具身一致性方面优于现有方法。尤其是在对未见过的具身进行自适应时,OmniHumanoid表现出显著的优势,证明了其良好的泛化能力。具体性能数据未知,但论文强调了其在无需重新训练共享运动模型的情况下,实现可扩展自适应的能力。

🎯 应用场景

OmniHumanoid在机器人控制、虚拟现实和游戏开发等领域具有广泛的应用前景。它可以用于生成各种人形机器人的运动视频,从而帮助训练机器人控制策略。此外,它还可以用于创建逼真的虚拟角色,并实现不同角色之间的运动迁移,从而丰富虚拟现实和游戏体验。

📄 摘要(原文)

Cross-embodiment video generation aims to transfer motions across different humanoid embodiments, such as human-to-robot and robot-to-robot, enabling scalable data generation for embodied intelligence. A major challenge in this setting is that motion dynamics are partly transferable across embodiments, whereas appearance and morphology remain embodiment-specific. Existing approaches often entangle these factors, and many require paired data for every target embodiment, which limits scalability to new robots. We present OmniHumanoid, a framework that factorizes transferable motion learning and embodiment-specific adaptation. Our method learns a shared motion transfer model from motion-aligned paired videos spanning multiple embodiments, while adapting to a new embodiment using only unpaired videos through lightweight embodiment-specific adapters. To reduce interference between motion transfer and embodiment adaptation, we further introduce a branch-isolated attention design that separates motion conditioning from embodiment-specific modulation. In addition, we construct a synthetic cross-embodiment dataset with motion-aligned paired videos rendered across diverse humanoid assets, scenes, and viewpoints. Experiments on both synthetic and real-world benchmarks show that OmniHumanoid achieves strong motion fidelity and embodiment consistency, while enabling scalable adaptation to unseen humanoid embodiments without retraining the shared motion model.