DrawMotion: Generating 3D Human Motions by Freehand Drawing

📄 arXiv: 2605.20955v1 📥 PDF

作者: Tao Wang, Lei Jin, Zhihua Wu, Qiaozhi He, Jiaming Chu, Yu Cheng, Junliang Xing, Jian Zhao, Shuicheng Yan, Li Wang

分类: cs.CV

发布日期: 2026-05-20

🔗 代码/项目: GITHUB


💡 一句话要点

DrawMotion:提出一种基于手绘草图的3D人体动作生成扩散框架,提升用户控制性和效率。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 3D人体动作生成 扩散模型 手绘草图 多条件融合 人机交互

📋 核心要点

  1. 文本到动作生成难以精确表达用户意图,用户需要更直观的控制方式。
  2. DrawMotion通过结合文本和手绘草图,利用扩散模型生成3D人体动作,提供语义和空间上的双重控制。
  3. 实验表明,DrawMotion能有效减少用户生成符合想象动作所需的时间,提升用户体验。

📝 摘要(中文)

本文提出DrawMotion,一个高效的基于扩散模型的多条件框架,用于生成3D人体动作。该框架结合了传统的文本条件和新颖的手绘条件,分别提供语义和空间控制。为了实现细粒度的动作生成,我们从三个方面入手:1) 开发了一种自动生成手绘火柴人草图的算法,以准确捕捉用户意图;2) 提出了一个多条件模块(MCM),集成到扩散过程中,利用所有可能的条件组合,同时降低计算复杂度;3) 利用MCM的连续特征空间,通过分类器引导梯度更新特征,使生成的动作与用户意图对齐并保持逼真度。实验表明,手绘方法在生成符合用户想象的动作时,可减少约46.7%的用户时间。

🔬 方法详解

问题定义:现有文本到动作生成方法依赖于文本描述,用户难以通过文本精确表达复杂的动作意图,导致生成结果与用户期望不符。此外,现有方法缺乏对生成动作的空间控制能力,难以实现细粒度的动作编辑。

核心思路:DrawMotion的核心思路是引入手绘草图作为额外的条件,与文本条件相结合,共同指导动作生成。手绘草图提供直观的空间信息,弥补了文本描述的不足,使用户能够更精确地控制生成动作的姿态和轨迹。

技术框架:DrawMotion基于扩散模型,整体框架包含以下主要模块:1) 手绘草图生成模块:自动生成火柴人草图;2) 多条件模块(MCM):将文本和手绘草图信息融合到扩散过程中;3) 扩散模型:基于融合后的条件生成3D人体动作。MCM被集成到扩散模型的每一步,逐步优化动作生成结果。

关键创新:DrawMotion的关键创新在于多条件模块(MCM)的设计以及训练自由的引导方式。MCM能够有效地融合文本和手绘草图信息,同时降低计算复杂度。训练自由的引导方式利用MCM的连续特征空间,通过分类器引导梯度更新特征,从而使生成的动作与用户意图对齐,无需额外的训练。

关键设计:MCM的具体实现细节未知,但其核心在于融合文本和手绘草图的特征表示,并将其注入到扩散模型的去噪过程中。分类器引导的具体实现细节也未知,但其目标是利用预训练的分类器,判断生成动作与用户意图的匹配程度,并利用梯度信息优化生成结果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DrawMotion能够有效减少用户生成符合想象动作所需的时间,平均减少约46.7%。用户研究也表明,DrawMotion生成的动作更符合用户的意图,用户体验更好。具体的性能指标和对比基线未知,但整体效果显著。

🎯 应用场景

DrawMotion可应用于游戏开发、动画制作、虚拟现实等领域。用户可以通过简单的手绘草图和文本描述,快速生成所需的3D人体动作,降低了动作生成的技术门槛,提高了创作效率。未来,该技术有望应用于更广泛的人机交互场景,例如机器人控制、康复训练等。

📄 摘要(原文)

Text-to-motion generation, which translates textual descriptions into human motions, faces the challenge that users often struggle to precisely convey their intended motions through text alone. To address this issue, this paper introduces DrawMotion, an efficient diffusion-based framework designed for multi-condition scenarios. DrawMotion generates motions based on both a conventional text condition and a novel hand-drawing condition, which provide semantic and spatial control over the generated motions, respectively. Specifically, we tackle the fine-grained motion generation task from three perspectives: 1) freehand drawing condition. To accurately capture users' intended motions without requiring tedious textual input, we develop an algorithm to automatically generate hand-drawn stickman sketches across different dataset formats; 2) multi-condition fusion. We propose a Multi-Condition Module (MCM) that is integrated into the diffusion process, enabling the model to exploit all possible condition combinations while reducing computational complexity compared to conventional approaches; and 3) training-free guidance. Notably, the MCM in DrawMotion ensures that its intermediate features lie in a continuous space, allowing classifier-guidance gradients to update the features and thereby aligning the generated motions with user intentions while preserving fidelity. Quantitative experiments and user studies demonstrate that the freehand drawing approach reduces user time by approximately 46.7% when generating motions aligned with their imagination. The code, demos, and relevant data are publicly available at https://github.com/InvertedForest/DrawMotion.