HumANDiff: Articulated Noise Diffusion for Motion-Consistent Human Video Generation
作者: Tao Hu, Varun Jampani
分类: cs.CV
发布日期: 2026-04-07
备注: Project page: https://taohuumd.github.io/projects/HumANDiff/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
HumANDiff:通过关节噪声扩散实现运动一致的人体视频生成
🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 人体视频生成 扩散模型 运动一致性 关节噪声 外观-运动学习
📋 核心要点
- 现有视频生成模型难以准确捕捉人体运动的动态和物理特性,导致生成视频运动不自然。
- HumANDiff通过引入关节运动一致的噪声采样,联合外观-运动学习以及几何运动一致性学习来解决上述问题。
- 实验表明,HumANDiff在生成运动一致、高保真且具有多样服装风格的人体视频方面表现出色,达到SOTA水平。
📝 摘要(中文)
尽管人体视频生成领域取得了显著进展,但生成式视频扩散模型在忠实捕捉人体运动的动态和物理特性方面仍然面临挑战。本文提出了一种新的人体视频生成框架HumANDiff,通过三个关键设计增强了人体运动控制:1) 关节运动一致的噪声采样,将潜在噪声的时空分布相关联,并用在统计人体模板的密集表面流形上采样的3D关节噪声代替非结构化的随机高斯噪声,继承了身体拓扑先验,用于空间和时间上一致的噪声采样。2) 联合外观-运动学习,通过从关节噪声中联合预测像素外观和相应的物理运动,增强了视频扩散模型的标准训练目标,从而实现高保真的人体视频合成,例如捕捉运动相关的服装褶皱。3) 几何运动一致性学习,通过在关节噪声空间中定义的新型几何运动一致性损失,强制执行跨帧的物理运动一致性。HumANDiff通过使用关节噪声采样微调视频扩散模型,实现了可扩展的可控人体视频生成。因此,我们的方法与扩散模型设计无关,并且不需要修改模型架构。在推理过程中,HumANDiff在单个框架内实现了图像到视频的生成,实现了内在的运动控制,而无需额外的运动模块。大量实验表明,我们的方法在渲染运动一致、高保真且具有多样服装风格的人体方面实现了最先进的性能。
🔬 方法详解
问题定义:现有的人体视频生成方法,特别是基于扩散模型的方法,难以保证生成视频中人体运动的真实性和一致性。随机噪声采样无法有效利用人体结构的先验知识,导致生成的视频在时序上出现不连贯的运动,并且难以捕捉运动相关的细节,例如服装的褶皱变化。
核心思路:HumANDiff的核心在于利用人体骨骼的先验知识,将噪声采样与人体运动结构对齐。通过在人体表面流形上进行噪声采样,并结合联合外观-运动学习和几何运动一致性损失,从而保证生成视频中人体运动的自然性和一致性,并提高视频的真实感。
技术框架:HumANDiff的整体框架包括三个主要部分:1) 关节运动一致的噪声采样:使用3D人体模型作为先验,在人体表面进行噪声采样,保证噪声的空间和时间一致性。2) 联合外观-运动学习:在训练过程中,同时预测像素外观和对应的物理运动,从而使模型能够学习到运动与外观之间的关系。3) 几何运动一致性学习:通过在关节噪声空间中定义几何运动一致性损失,强制模型生成在物理上合理的运动序列。该框架可以与现有的视频扩散模型相结合,无需修改模型架构。
关键创新:HumANDiff的关键创新在于将人体骨骼的先验知识融入到视频扩散模型的噪声采样过程中。与传统的随机高斯噪声采样不同,HumANDiff使用关节运动一致的噪声采样,从而保证了生成视频中人体运动的自然性和一致性。此外,联合外观-运动学习和几何运动一致性损失进一步提高了生成视频的真实感。
关键设计:关节运动一致的噪声采样是关键设计之一,它利用了3D人体模型的拓扑结构,保证了噪声在空间和时间上的连续性。几何运动一致性损失通过计算相邻帧之间关节噪声的差异,来约束生成视频的运动一致性。联合外观-运动学习则通过同时预测像素外观和对应的物理运动,使模型能够学习到运动与外观之间的复杂关系。
🖼️ 关键图片
📊 实验亮点
HumANDiff通过关节噪声扩散,在人体视频生成任务上取得了显著的性能提升。实验结果表明,该方法能够生成运动一致、高保真且具有多样服装风格的人体视频,并在视觉质量和运动真实性方面优于现有的视频生成方法。该方法无需修改现有的扩散模型架构,易于集成和部署。
🎯 应用场景
HumANDiff在虚拟现实、游戏开发、电影制作等领域具有广泛的应用前景。它可以用于生成逼真的人体动画,创建虚拟角色,以及进行视频编辑和特效制作。该技术还可以应用于运动分析、康复训练等领域,通过生成特定运动模式的视频,帮助用户进行运动学习和训练。
📄 摘要(原文)
Despite tremendous recent progress in human video generation, generative video diffusion models still struggle to capture the dynamics and physics of human motions faithfully. In this paper, we propose a new framework for human video generation, HumANDiff, which enhances the human motion control with three key designs: 1) Articulated motion-consistent noise sampling that correlates the spatiotemporal distribution of latent noise and replaces the unstructured random Gaussian noise with 3D articulated noise sampled on the dense surface manifold of a statistical human body template. It inherits body topology priors for spatially and temporally consistent noise sampling. 2) Joint appearance-motion learning that enhances the standard training objective of video diffusion models by jointly predicting pixel appearances and corresponding physical motions from the articulated noises. It enables high-fidelity human video synthesis, e.g., capturing motion-dependent clothing wrinkles. 3) Geometric motion consistency learning that enforces physical motion consistency across frames via a novel geometric motion consistency loss defined in the articulated noise space. HumANDiff enables scalable controllable human video generation by fine-tuning video diffusion models with articulated noise sampling. Consequently, our method is agnostic to diffusion model design, and requires no modifications to the model architecture. During inference, HumANDiff enables image-to-video generation within a single framework, achieving intrinsic motion control without requiring additional motion modules. Extensive experiments demonstrate that our method achieves state-of-the-art performance in rendering motion-consistent, high-fidelity humans with diverse clothing styles. Project page: https://taohuumd.github.io/projects/HumANDiff/