Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

作者: Ashkan Taghipour, Morteza Ghahremani, Zinuo Li, Hamid Laga, Farid Boussaid, Mohammed Bennamoun

分类: cs.CV, cs.MM

发布日期: 2026-03-09

💡 一句话要点

提出基于文本到骨骼级联的可控复杂人体运动视频生成框架。

🎯 匹配领域: 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation)

关键词: 视频生成 人体运动 文本到视频 扩散模型 骨骼序列 自回归模型 姿势估计

📋 核心要点

现有视频扩散模型在生成复杂人体运动视频时，难以实现对细粒度运动的精确控制，文本条件存在时间模糊性。
提出一种两阶段级联框架，首先通过文本生成骨骼序列，再利用骨骼序列引导视频生成，实现对复杂运动的精确控制。
在合成数据集和Motion-X Fitness基准测试中，所提方法在运动生成质量、多样性和视频质量方面均优于现有方法。

📝 摘要（中文）

本文提出了一种两阶段级联框架，用于生成复杂人体运动视频。该框架首先利用自回归文本到骨骼模型，从自然语言描述生成2D姿势序列，通过预测每个关节并以先前生成的姿势为条件，捕捉长程时间依赖性和关节间的协调性。然后，一个姿势条件视频扩散模型从参考图像和生成的骨骼序列合成视频，并采用DINO-ALF（自适应层融合）多级参考编码器，在大的姿势变化和自我遮挡下保持外观和服装细节。此外，本文还引入了一个基于Blender的合成数据集，包含2000个具有不同角色进行杂技和特技动作的视频。实验表明，本文提出的文本到骨骼模型在FID、R-precision和运动多样性方面优于现有方法，姿势到视频模型在时间一致性、运动平滑性和主体保持方面的VBench指标上取得了最佳结果。

🔬 方法详解

问题定义：现有方法在生成复杂人体运动视频时面临挑战。仅使用文本作为条件，难以实现对细粒度运动的精确控制，因为文本描述存在时间上的模糊性。而基于姿势的控制虽然有效，但需要用户提供完整的骨骼序列，对于长时间和动态的动作来说，生成这些序列的成本很高。

核心思路：本文的核心思路是将视频生成过程分解为两个阶段：首先，利用文本生成骨骼序列，将文本信息转化为具体的运动轨迹；然后，利用生成的骨骼序列作为条件，引导视频扩散模型生成最终的视频。这种方法既利用了文本的灵活性，又避免了直接从文本生成视频的模糊性。

技术框架：该框架包含两个主要模块：文本到骨骼模型和姿势条件视频扩散模型。文本到骨骼模型采用自回归结构，逐步预测每个关节的位置，并以先前生成的姿势为条件。姿势条件视频扩散模型则以参考图像和生成的骨骼序列作为输入，生成最终的视频。该模型使用DINO-ALF（自适应层融合）多级参考编码器来保持外观和服装细节。

关键创新：最重要的技术创新在于文本到骨骼模型的自回归结构和DINO-ALF多级参考编码器。自回归结构能够捕捉长程时间依赖性和关节间的协调性，从而生成更自然和连贯的骨骼序列。DINO-ALF能够有效地融合参考图像的信息，即使在大的姿势变化和自我遮挡的情况下，也能保持外观和服装细节。

关键设计：文本到骨骼模型使用Transformer架构，并采用交叉熵损失函数进行训练。姿势条件视频扩散模型使用U-Net结构，并将骨骼序列作为额外的条件输入。DINO-ALF通过自适应地融合不同层的特征，来平衡外观保持和运动控制。

🖼️ 关键图片

📊 实验亮点

实验结果表明，本文提出的文本到骨骼模型在FID、R-precision和运动多样性方面优于现有方法。具体来说，在合成数据集上，该模型在FID指标上取得了显著的提升。姿势到视频模型在VBench指标（时间一致性、运动平滑性和主体保持）上取得了最佳结果，表明该模型能够生成高质量的视频。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、电影制作等领域，例如，可以根据文本描述自动生成人物进行特定运动的视频，从而降低动画制作的成本。此外，该技术还可以用于运动分析和康复训练，通过分析人体运动的骨骼序列，评估运动质量和康复效果。

📄 摘要（原文）

Generating videos of complex human motions such as flips, cartwheels, and martial arts remains challenging for current video diffusion models. Text-only conditioning is temporally ambiguous for fine-grained motion control, while explicit pose-based controls, though effective, require users to provide complete skeleton sequences that are costly to produce for long and dynamic actions. We propose a two-stage cascaded framework that addresses both limitations. First, an autoregressive text-to-skeleton model generates 2D pose sequences from natural language descriptions by predicting each joint conditioned on previously generated poses. This design captures long-range temporal dependencies and inter-joint coordination required for complex motions. Second, a pose-conditioned video diffusion model synthesizes videos from a reference image and the generated skeleton sequence. It employs DINO-ALF (Adaptive Layer Fusion), a multi-level reference encoder that preserves appearance and clothing details under large pose changes and self-occlusions. To address the lack of publicly available datasets for complex human motion video generation, we introduce a Blender-based synthetic dataset containing 2,000 videos with diverse characters performing acrobatic and stunt-like motions. The dataset provides full control over appearance, motion, and environment. It fills an important gap because existing benchmarks significantly under-represent acrobatic motions while web-collected datasets raise copyright and privacy concerns. Experiments on our synthetic dataset and the Motion-X Fitness benchmark show that our text-to-skeleton model outperforms prior methods on FID, R-precision, and motion diversity. Our pose-to-video model also achieves the best results among all compared methods on VBench metrics for temporal consistency, motion smoothness, and subject preservation.

Controllable Complex Human Motion Video Generation via Text-to-Skeleton Cascades

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理