Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

📄 arXiv: 2603.08028v1 📥 PDF

作者: Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun

分类: cs.CV, cs.MM

发布日期: 2026-03-09


💡 一句话要点

提出基于文本到骨骼级联的可控复杂人体运动视频生成框架。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 视频生成 人体运动 文本到视频 扩散模型 骨骼序列 自回归模型 姿势估计

📋 核心要点

  1. 现有视频扩散模型在生成复杂人体运动视频时,难以实现对细粒度运动的精确控制,文本条件存在时间模糊性。
  2. 提出一种两阶段级联框架,首先通过文本生成骨骼序列,再利用骨骼序列引导视频生成,实现对复杂运动的精确控制。
  3. 在合成数据集和Motion-X Fitness基准测试中,所提方法在运动生成质量、多样性和视频质量方面均优于现有方法。

📝 摘要(中文)

本文提出了一种两阶段级联框架,用于生成复杂人体运动视频。该框架首先利用自回归文本到骨骼模型,从自然语言描述生成2D姿势序列,通过预测每个关节并以先前生成的姿势为条件,捕捉长程时间依赖性和关节间的协调性。然后,一个姿势条件视频扩散模型从参考图像和生成的骨骼序列合成视频,并采用DINO-ALF(自适应层融合)多级参考编码器,在大的姿势变化和自我遮挡下保持外观和服装细节。此外,本文还引入了一个基于Blender的合成数据集,包含2000个具有不同角色进行杂技和特技动作的视频。实验表明,本文提出的文本到骨骼模型在FID、R-precision和运动多样性方面优于现有方法,姿势到视频模型在时间一致性、运动平滑性和主体保持方面的VBench指标上取得了最佳结果。

🔬 方法详解

问题定义:现有方法在生成复杂人体运动视频时面临挑战。仅使用文本作为条件,难以实现对细粒度运动的精确控制,因为文本描述存在时间上的模糊性。而基于姿势的控制虽然有效,但需要用户提供完整的骨骼序列,对于长时间和动态的动作来说,生成这些序列的成本很高。

核心思路:本文的核心思路是将视频生成过程分解为两个阶段:首先,利用文本生成骨骼序列,将文本信息转化为具体的运动轨迹;然后,利用生成的骨骼序列作为条件,引导视频扩散模型生成最终的视频。这种方法既利用了文本的灵活性,又避免了直接从文本生成视频的模糊性。

技术框架:该框架包含两个主要模块:文本到骨骼模型和姿势条件视频扩散模型。文本到骨骼模型采用自回归结构,逐步预测每个关节的位置,并以先前生成的姿势为条件。姿势条件视频扩散模型则以参考图像和生成的骨骼序列作为输入,生成最终的视频。该模型使用DINO-ALF(自适应层融合)多级参考编码器来保持外观和服装细节。

关键创新:最重要的技术创新在于文本到骨骼模型的自回归结构和DINO-ALF多级参考编码器。自回归结构能够捕捉长程时间依赖性和关节间的协调性,从而生成更自然和连贯的骨骼序列。DINO-ALF能够有效地融合参考图像的信息,即使在大的姿势变化和自我遮挡的情况下,也能保持外观和服装细节。

关键设计:文本到骨骼模型使用Transformer架构,并采用交叉熵损失函数进行训练。姿势条件视频扩散模型使用U-Net结构,并将骨骼序列作为额外的条件输入。DINO-ALF通过自适应地融合不同层的特征,来平衡外观保持和运动控制。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,本文提出的文本到骨骼模型在FID、R-precision和运动多样性方面优于现有方法。具体来说,在合成数据集上,该模型在FID指标上取得了显著的提升。姿势到视频模型在VBench指标(时间一致性、运动平滑性和主体保持)上取得了最佳结果,表明该模型能够生成高质量的视频。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、电影制作等领域,例如,可以根据文本描述自动生成人物进行特定运动的视频,从而降低动画制作的成本。此外,该技术还可以用于运动分析和康复训练,通过分析人体运动的骨骼序列,评估运动质量和康复效果。

📄 摘要(原文)

Generating videos of complex human motions such as flips, cartwheels, and martial arts remains challenging for current video diffusion models. Text-only conditioning is temporally ambiguous for fine-grained motion control, while explicit pose-based controls, though effective, require users to provide complete skeleton sequences that are costly to produce for long and dynamic actions. We propose a two-stage cascaded framework that addresses both limitations. First, an autoregressive text-to-skeleton model generates 2D pose sequences from natural language descriptions by predicting each joint conditioned on previously generated poses. This design captures long-range temporal dependencies and inter-joint coordination required for complex motions. Second, a pose-conditioned video diffusion model synthesizes videos from a reference image and the generated skeleton sequence. It employs DINO-ALF (Adaptive Layer Fusion), a multi-level reference encoder that preserves appearance and clothing details under large pose changes and self-occlusions. To address the lack of publicly available datasets for complex human motion video generation, we introduce a Blender-based synthetic dataset containing 2,000 videos with diverse characters performing acrobatic and stunt-like motions. The dataset provides full control over appearance, motion, and environment. It fills an important gap because existing benchmarks significantly under-represent acrobatic motions while web-collected datasets raise copyright and privacy concerns. Experiments on our synthetic dataset and the Motion-X Fitness benchmark show that our text-to-skeleton model outperforms prior methods on FID, R-precision, and motion diversity. Our pose-to-video model also achieves the best results among all compared methods on VBench metrics for temporal consistency, motion smoothness, and subject preservation.