Generating Human Motion Videos using a Cascaded Text-to-Video Framework

作者: Hyelin Nam, Hyojun Go, Byeongjun Park, Byung-Hoon Kim, Hyungjin Chung

分类: cs.CV

发布日期: 2025-10-04

备注: 18 pages, 7 figures, Project Page:https://hyelinnam.github.io/Cameo/

💡 一句话要点

提出CAMEO级联框架，用于通用人体运动视频生成，提升文本到视频的生成质量。

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱七：动作重定向 (Motion Retargeting) 支柱八：物理动画 (Physics-based Animation) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本到视频生成 人体运动生成 视频扩散模型 级联框架 相机感知 条件生成 具身智能 运动捕捉

📋 核心要点

现有视频扩散模型在通用人体运动视频生成方面应用不足，常局限于图像到视频或特定领域。
CAMEO级联框架连接文本到运动模型和条件视频扩散模型，优化训练和推理过程。
通过相机感知模块自动选择与文本对齐的视点，增强视频连贯性，减少人工干预。

📝 摘要（中文）

人体视频生成在图形、娱乐和具身人工智能等领域变得越来越重要。尽管视频扩散模型（VDM）发展迅速，但它们在通用人体视频生成方面的应用仍未得到充分探索，大多数工作仅限于图像到视频的设置或舞蹈视频等狭窄领域。本文提出了CAMEO，一个用于通用人体运动视频生成的级联框架。它无缝地连接了文本到运动（T2M）模型和条件VDM，通过精心设计的组件，减轻了训练和推理过程中可能出现的次优因素。具体来说，我们分析并准备了文本提示和视觉条件，以有效地训练VDM，确保运动描述、条件信号和生成的视频之间的鲁棒对齐。此外，我们引入了一个相机感知条件模块，将两个阶段连接起来，自动选择与输入文本对齐的视点，以增强连贯性并减少人工干预。我们在MovieGen基准和一个专门为T2M-VDM组合定制的新基准上证明了我们方法的有效性，同时强调了其在各种用例中的多功能性。

🔬 方法详解

问题定义：现有方法在利用文本生成人体运动视频时，存在生成质量不高、与文本描述不一致的问题，尤其是在通用场景下，难以生成自然、连贯的人体运动视频。现有的视频扩散模型在处理此类任务时，往往需要大量人工干预，且难以保证生成视频的质量和多样性。

核心思路：CAMEO的核心思路是将文本到运动（T2M）模型和条件视频扩散模型（VDM）结合起来，形成一个级联框架。T2M模型负责根据文本生成人体运动的骨架序列，VDM则负责将骨架序列转化为逼真的人体视频。通过这种方式，可以充分利用T2M模型在运动生成方面的优势和VDM在视频生成方面的优势，从而提高生成视频的质量和与文本描述的一致性。

技术框架：CAMEO框架主要包含两个阶段：第一阶段是文本到运动生成阶段，使用T2M模型根据文本描述生成人体运动的骨架序列。第二阶段是运动到视频生成阶段，使用条件VDM将骨架序列转化为逼真的人体视频。此外，框架还包含一个相机感知条件模块，用于自动选择与输入文本对齐的视点，以增强视频的连贯性。

关键创新：CAMEO的关键创新在于其级联框架的设计和相机感知条件模块的引入。级联框架通过将T2M模型和VDM结合起来，充分利用了各自的优势，提高了生成视频的质量和与文本描述的一致性。相机感知条件模块则通过自动选择视点，增强了视频的连贯性，减少了人工干预。

关键设计：在训练VDM时，论文对文本提示和视觉条件进行了精心准备，以确保运动描述、条件信号和生成的视频之间的鲁棒对齐。相机感知条件模块通过学习文本描述和相机参数之间的映射关系，自动选择与输入文本对齐的视点。具体的损失函数和网络结构等技术细节在论文中未详细描述，属于未知信息。

🖼️ 关键图片

📊 实验亮点

CAMEO在MovieGen基准和一个专门为T2M-VDM组合定制的新基准上进行了评估，结果表明，该方法能够生成高质量、与文本描述一致的人体运动视频。具体的性能数据和提升幅度在摘要中未给出，属于未知信息。论文强调了CAMEO在各种用例中的多功能性。

🎯 应用场景

该研究成果可广泛应用于游戏、电影、虚拟现实、增强现实等领域，例如，可以根据剧本自动生成演员的表演视频，或者为游戏角色生成各种动作。此外，该技术还可以应用于具身智能领域，例如，可以为机器人生成各种运动视频，使其能够更好地与人类进行交互。未来，该技术有望进一步发展，实现更高质量、更逼真的人体运动视频生成。

📄 摘要（原文）

Human video generation is becoming an increasingly important task with broad applications in graphics, entertainment, and embodied AI. Despite the rapid progress of video diffusion models (VDMs), their use for general-purpose human video generation remains underexplored, with most works constrained to image-to-video setups or narrow domains like dance videos. In this work, we propose CAMEO, a cascaded framework for general human motion video generation. It seamlessly bridges Text-to-Motion (T2M) models and conditional VDMs, mitigating suboptimal factors that may arise in this process across both training and inference through carefully designed components. Specifically, we analyze and prepare both textual prompts and visual conditions to effectively train the VDM, ensuring robust alignment between motion descriptions, conditioning signals, and the generated videos. Furthermore, we introduce a camera-aware conditioning module that connects the two stages, automatically selecting viewpoints aligned with the input text to enhance coherence and reduce manual intervention. We demonstrate the effectiveness of our approach on both the MovieGen benchmark and a newly introduced benchmark tailored to the T2M-VDM combination, while highlighting its versatility across diverse use cases.

Generating Human Motion Videos using a Cascaded Text-to-Video Framework

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理