Object-Aware 4D Human Motion Generation

📄 arXiv: 2511.00248v1 📥 PDF

作者: Shurui Gui, Deep Anil Patel, Xiner Li, Martin Renqiang Min

分类: cs.CV, cs.GR

发布日期: 2025-10-31


💡 一句话要点

提出MSDI框架,利用运动扩散先验生成逼真且符合物理规律的4D人体运动

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 4D人体运动生成 运动扩散模型 3D高斯表示 大型语言模型 分数提炼 对象感知 零样本学习

📋 核心要点

  1. 现有视频生成方法缺乏3D物理先验,导致生成的人体运动不真实、违反语义和物理规律。
  2. 提出MSDI框架,结合3D高斯表示、运动扩散先验和大型语言模型,实现对象感知的4D人体运动生成。
  3. MSDI无需重新训练,即可生成自然且符合物理规律的人体运动,在3D空间上下文中表现良好。

📝 摘要(中文)

视频扩散模型在生成高质量视频方面取得了显著进展。然而,这些视频仍然存在不真实的变形、语义违背和物理不一致性,这主要源于缺乏3D物理先验。为了解决这些挑战,我们提出了一个基于3D高斯表示和运动扩散先验的、具有对象感知的4D人体运动生成框架,名为运动分数提炼交互(MSDI)。MSDI利用大型语言模型(LLM)中的空间和提示语义信息,并通过提出的运动扩散分数提炼采样(MSDS)利用运动先验。MSDS与LLM的结合实现了我们的空间感知运动优化,该优化从预训练的运动扩散模型中提取分数梯度,以在尊重对象和语义约束的同时细化人体运动。与以往需要在有限的交互数据集上进行联合训练的方法不同,我们的零样本方法避免了重新训练,并推广到分布外的对象感知人体运动。实验表明,我们的框架生成自然且物理上合理的人体运动,尊重3D空间上下文,为逼真的4D生成提供了一个可扩展的解决方案。

🔬 方法详解

问题定义:现有视频生成模型在生成人体运动时,由于缺乏3D物理先验,容易出现不真实的形变、语义违背和物理不一致性。以往方法通常需要在特定交互数据集上进行联合训练,泛化能力有限。因此,需要一种能够生成逼真、符合物理规律且具有良好泛化能力的4D人体运动生成方法。

核心思路:MSDI的核心思路是利用预训练的运动扩散模型作为先验知识,结合大型语言模型的语义理解能力,通过分数提炼的方式优化人体运动。通过3D高斯表示对人体和物体进行建模,保证了空间一致性。这种方法避免了在特定数据集上进行联合训练,从而提高了泛化能力。

技术框架:MSDI框架主要包含以下几个阶段:1) 使用预训练模型生成3D人体和物体;2) 利用大型语言模型提取场景的空间和语义信息;3) 通过运动扩散分数提炼采样(MSDS)从预训练的运动扩散模型中提取分数梯度;4) 利用提取的分数梯度优化人体运动,使其符合物体和语义约束。

关键创新:MSDI的关键创新在于提出了运动扩散分数提炼采样(MSDS)方法。MSDS能够有效地从预训练的运动扩散模型中提取分数梯度,并将其用于优化人体运动。这种方法避免了对运动扩散模型进行微调,从而提高了泛化能力。此外,MSDI框架结合了3D高斯表示和大型语言模型,实现了对象感知的运动生成。

关键设计:MSDI使用3D高斯表示来建模人体和物体,保证了空间一致性。运动扩散模型采用标准的扩散模型结构,并使用预训练的权重进行初始化。损失函数主要包括运动损失、物体交互损失和语义一致性损失。运动损失用于保证运动的自然性,物体交互损失用于保证人体与物体之间的物理交互,语义一致性损失用于保证运动与场景语义的一致性。具体参数设置未知。

📊 实验亮点

实验结果表明,MSDI框架能够生成自然且符合物理规律的人体运动,并在3D空间上下文中表现良好。与现有方法相比,MSDI无需在特定数据集上进行联合训练,具有更好的泛化能力。具体性能数据和对比基线未知,但论文强调了其零样本特性和对3D空间上下文的尊重。

🎯 应用场景

MSDI框架可应用于虚拟现实、游戏、电影制作等领域,生成逼真且符合物理规律的虚拟人物运动。该技术能够提升用户在虚拟环境中的沉浸感和交互体验,并为内容创作者提供更高效的动画制作工具。未来,该技术有望应用于机器人控制领域,使机器人能够更好地与人类进行交互。

📄 摘要(原文)

Recent advances in video diffusion models have enabled the generation of high-quality videos. However, these videos still suffer from unrealistic deformations, semantic violations, and physical inconsistencies that are largely rooted in the absence of 3D physical priors. To address these challenges, we propose an object-aware 4D human motion generation framework grounded in 3D Gaussian representations and motion diffusion priors. With pre-generated 3D humans and objects, our method, Motion Score Distilled Interaction (MSDI), employs the spatial and prompt semantic information in large language models (LLMs) and motion priors through the proposed Motion Diffusion Score Distillation Sampling (MSDS). The combination of MSDS and LLMs enables our spatial-aware motion optimization, which distills score gradients from pre-trained motion diffusion models, to refine human motion while respecting object and semantic constraints. Unlike prior methods requiring joint training on limited interaction datasets, our zero-shot approach avoids retraining and generalizes to out-of-distribution object aware human motions. Experiments demonstrate that our framework produces natural and physically plausible human motions that respect 3D spatial context, offering a scalable solution for realistic 4D generation.