Towards 3D-Aware Video Diffusion Models: Render-Free Human Motion Control with Mesh Tokenization

📄 arXiv: 2606.02000v1 📥 PDF

作者: Jingyun Liang, Min Wei, Shikai Li, Yizeng Han, Hangjie Yuan, Lei Sun, Weihua Chen, Fan Wang

分类: cs.CV, cs.AI, eess.IV

发布日期: 2026-06-01

备注: Project page: https://jingyunliang.github.io/MeshToken/


💡 一句话要点

提出基于网格Token化的3D感知视频扩散模型,实现无渲染的人体运动控制。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频生成 扩散模型 3D人体运动控制 网格Token化 无渲染 DiT 3D感知

📋 核心要点

  1. 现有视频生成方法依赖2D渲染引导,难以准确建模3D人体结构和运动,易产生视角依赖伪影。
  2. 提出无渲染框架,直接以压缩的3D人体网格Token为条件,保留完整3D几何信息,实现外观、结构和视角的联合推理。
  3. 实验表明,该方法在人体运动控制任务上表现出色,有效减少了伪影,提升了3D结构感知能力。

📝 摘要(中文)

扩散模型在视频生成方面取得了显著成功。然而,这些模型是否真正理解视觉观察背后的3D结构,而不仅仅是重现合理的2D投影,仍然是一个悬而未决的问题。本文通过人体运动控制来研究这个问题,该任务需要精确地建模3D人体几何、运动、相机视角和场景上下文。与依赖渲染的2D运动引导视频的先前方法不同,我们提出了一个无渲染框架,该框架直接以压缩的3D人体网格Token为条件进行视频生成。这种表示保留了完整的3D几何信息,同时实现了统一的基于Token的生成流程,该流程在基于DiT的架构中将视频Token与运动Token联合处理。这种设计要求模型在视频生成过程中联合推理外观、3D结构和相机视角。实验结果表明,在人体运动控制基准测试中表现出色,同时减少了由视角相关的2D引导和编辑期间的轨迹-姿势不匹配引起的伪影。这些发现表明,配备网格Token化的视频扩散模型可以更好地捕捉复杂的3D人体结构及其与周围环境的交互。

🔬 方法详解

问题定义:现有基于扩散模型的视频生成方法,在处理人体运动控制任务时,通常依赖于2D渲染的运动引导视频。这种方法的痛点在于,2D渲染丢失了3D几何信息,导致模型难以准确理解和生成符合3D结构的人体运动,容易产生视角依赖的伪影,以及轨迹和姿势不匹配的问题。

核心思路:本文的核心思路是直接利用3D人体网格信息作为扩散模型的条件输入,避免中间的2D渲染步骤。通过将3D人体网格进行Token化,得到压缩的3D运动Token,与视频Token一起输入到扩散模型中进行联合训练和生成。这样可以使模型直接学习3D结构和运动之间的关系,从而生成更真实、更符合3D几何规律的视频。

技术框架:整体框架包含以下几个主要模块:1)3D人体网格序列获取:通过现有的3D人体姿态估计方法(如SMPLify-X)从视频中提取3D人体网格序列。2)网格Token化:将3D人体网格序列进行Token化,得到离散的3D运动Token。3)基于DiT的扩散模型:使用DiT(Diffusion Transformer)作为视频生成的主干网络,将视频Token和3D运动Token一起输入到DiT中进行训练和生成。4)视频生成:通过扩散模型的逆过程,从噪声中生成最终的视频。

关键创新:最重要的技术创新点在于使用3D人体网格Token作为扩散模型的条件输入,取代了传统的2D渲染引导。这种方法能够保留完整的3D几何信息,使模型能够直接学习3D结构和运动之间的关系。与现有方法的本质区别在于,本文的方法是render-free的,避免了2D渲染带来的信息损失和伪影。

关键设计:在网格Token化方面,使用了VQ-VAE(Vector Quantized Variational Autoencoder)将3D人体网格进行压缩和离散化,得到离散的3D运动Token。在DiT网络结构方面,将视频Token和3D运动Token进行concat,然后输入到Transformer Encoder中进行特征提取和融合。损失函数方面,使用了标准的扩散模型损失函数,以及额外的正则化项来约束3D运动Token的生成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法在HumanML3D和Amass等人体运动控制基准测试中取得了显著的性能提升。与基于2D渲染引导的现有方法相比,该方法能够生成更真实、更符合3D几何规律的视频,并有效减少了视角依赖的伪影和轨迹-姿势不匹配的问题。定量指标和定性结果均表明,该方法具有更强的3D结构感知能力。

🎯 应用场景

该研究成果可应用于虚拟现实、增强现实、游戏开发、电影制作等领域。例如,可以用于生成逼真的人体运动视频,创建虚拟角色,进行运动分析和康复训练等。未来,该技术有望进一步扩展到其他3D物体的视频生成和控制,为内容创作和人机交互带来更多可能性。

📄 摘要(原文)

Diffusion models have shown remarkable success in video generation. However, whether such models are truly aware of the 3D structure underlying visual observations, rather than simply reproducing plausible 2D projections, remains an open question. In this work, we investigate this question through human motion control, a task that requires precise modelling of 3D human geometry, motion, camera viewpoint, and scene context. Unlike prior methods that rely on rendered 2D motion guidance videos, we propose a render-free framework that conditions video generation directly on compressed 3D human mesh tokens. This representation preserves full 3D geometric information while enabling a unified token-based generation pipeline that processes video tokens jointly with motion tokens in a DiT-based architecture. This design requires the model to reason jointly about appearance, 3D structure, and camera viewpoint during video generation. Experimental results demonstrate strong performance on human motion control benchmarks, while reducing artifacts induced by view-dependent 2D guidance and trajectory-pose mismatches during editing. These findings suggest that video diffusion models, when equipped with mesh tokenization, can better capture complex 3D human structures and their interactions with the surrounding environment.