UniHM: Universal Human Motion Generation with Object Interactions in Indoor Scenes
作者: Zichen Geng, Zeeshan Hayder, Wei Liu, Ajmal Mian
分类: cs.GR, cs.AI, cs.CV
发布日期: 2025-05-19
💡 一句话要点
UniHM:室内场景中融合对象交互的通用人体运动生成模型
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 人体运动生成 场景交互 扩散模型 运动语言模型 无查找量化VAE
📋 核心要点
- 现有方法在复杂场景下生成人体运动时,难以有效整合环境信息和对象交互,导致生成的运动不自然且缺乏上下文感知。
- UniHM提出了一种统一的运动语言模型,通过扩散模型生成场景感知的人体运动,并支持文本到运动和文本到人-对象交互。
- UniHM在OMOMO和HumanML3D数据集上取得了有竞争力的结果,证明了其在场景感知运动生成方面的有效性。
📝 摘要(中文)
在复杂场景中合成人体运动是一个根本性的挑战,它超越了传统的文本到运动任务,需要整合静态环境、可移动对象、自然语言提示和空间路径点等多种模态。现有的语言条件运动模型通常难以进行场景感知的运动生成,这是由于运动tokenization的局限性,导致信息丢失,并且无法捕捉3D人体运动的连续性和上下文依赖性。为了解决这些问题,我们提出了UniHM,一个统一的运动语言模型,它利用基于扩散的生成来合成场景感知的人体运动。UniHM是第一个支持在复杂3D场景中进行文本到运动和文本到人-对象交互(HOI)的框架。我们的方法引入了三个关键贡献:(1)一种混合运动表示,它融合了连续的6DoF运动和离散的局部运动token,以提高运动的真实感;(2)一种新颖的无查找量化VAE(LFQ-VAE),它在重建精度和生成性能方面都超过了传统的VQ-VAE;(3)Lingo数据集的增强版本,增加了HumanML3D注释,为场景特定的运动学习提供了更强的监督。实验结果表明,UniHM在OMOMO基准测试中实现了文本到HOI合成的比较性能,并在HumanML3D上实现了通用文本条件运动生成的竞争性结果。
🔬 方法详解
问题定义:论文旨在解决在复杂室内场景中,如何根据文本描述生成与场景和对象交互的自然、真实的人体运动。现有方法主要依赖于文本到运动的生成,缺乏对场景几何信息和对象交互的建模能力,导致生成的运动与场景不协调,无法完成复杂的交互任务。此外,运动tokenization过程中的信息损失也是一个重要的痛点。
核心思路:UniHM的核心思路是将人体运动生成问题转化为一个统一的运动语言建模问题,利用扩散模型强大的生成能力,并结合场景信息和对象交互信息,生成与场景上下文相关的运动。通过混合运动表示、无查找量化VAE和增强的数据集,提升运动的真实感和交互的合理性。
技术框架:UniHM的整体框架包含以下几个主要模块:1) 混合运动表示模块,用于融合连续的6DoF运动和离散的局部运动token;2) 无查找量化VAE(LFQ-VAE),用于学习运动的潜在空间表示;3) 基于扩散模型的运动生成模块,用于根据文本描述和场景信息生成人体运动;4) 增强的Lingo数据集,用于训练模型。整个流程是:输入文本描述和场景信息,通过LFQ-VAE将运动编码到潜在空间,然后利用扩散模型生成潜在空间的运动表示,最后解码得到最终的人体运动。
关键创新:UniHM的关键创新在于:1) 提出了混合运动表示,结合了连续运动和离散运动的优点,提高了运动的真实感;2) 提出了无查找量化VAE(LFQ-VAE),克服了传统VQ-VAE的局限性,提高了重建精度和生成性能;3) 构建了增强的Lingo数据集,为场景特定的运动学习提供了更强的监督。与现有方法相比,UniHM能够更好地建模场景信息和对象交互,生成更自然、更真实的运动。
关键设计:LFQ-VAE的设计是关键。传统VQ-VAE需要查找表,计算量大,且容易出现量化误差。LFQ-VAE通过直接预测量化后的运动表示,避免了查找表的使用,提高了效率和精度。此外,损失函数的设计也至关重要,需要平衡重建损失、量化损失和生成损失,以保证模型的训练效果。具体的参数设置和网络结构细节在论文中有详细描述,这里不再赘述。
🖼️ 关键图片
📊 实验亮点
UniHM在OMOMO数据集上实现了与现有最佳方法相当的性能,证明了其在文本到HOI合成方面的有效性。在HumanML3D数据集上,UniHM也取得了有竞争力的结果,表明其在通用文本条件运动生成方面的能力。LFQ-VAE在重建精度和生成性能方面均优于传统的VQ-VAE,验证了其优越性。
🎯 应用场景
UniHM具有广泛的应用前景,例如虚拟现实、游戏开发、机器人控制、动画制作等。它可以用于生成逼真的人体运动,使虚拟角色能够与环境进行自然的交互。此外,UniHM还可以用于训练机器人,使其能够在复杂环境中完成各种任务。未来,UniHM有望成为人机交互领域的重要技术。
📄 摘要(原文)
Human motion synthesis in complex scenes presents a fundamental challenge, extending beyond conventional Text-to-Motion tasks by requiring the integration of diverse modalities such as static environments, movable objects, natural language prompts, and spatial waypoints. Existing language-conditioned motion models often struggle with scene-aware motion generation due to limitations in motion tokenization, which leads to information loss and fails to capture the continuous, context-dependent nature of 3D human movement. To address these issues, we propose UniHM, a unified motion language model that leverages diffusion-based generation for synthesizing scene-aware human motion. UniHM is the first framework to support both Text-to-Motion and Text-to-Human-Object Interaction (HOI) in complex 3D scenes. Our approach introduces three key contributions: (1) a mixed-motion representation that fuses continuous 6DoF motion with discrete local motion tokens to improve motion realism; (2) a novel Look-Up-Free Quantization VAE (LFQ-VAE) that surpasses traditional VQ-VAEs in both reconstruction accuracy and generative performance; and (3) an enriched version of the Lingo dataset augmented with HumanML3D annotations, providing stronger supervision for scene-specific motion learning. Experimental results demonstrate that UniHM achieves comparative performance on the OMOMO benchmark for text-to-HOI synthesis and yields competitive results on HumanML3D for general text-conditioned motion generation.