LaMoGen: Laban Movement-Guided Diffusion for Text-to-Motion Generation

📄 arXiv: 2509.24469v2 📥 PDF

作者: Heechang Kim, Gwanghyun Kim, Se Young Chun

分类: cs.CV, cs.AI

发布日期: 2025-09-29 (更新: 2025-10-13)


💡 一句话要点

LaMoGen:基于拉班动作分析的扩散模型文本到动作生成方法

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 文本到动作生成 扩散模型 拉班动作分析 动作风格控制 零样本学习

📋 核心要点

  1. 现有的文本到动作生成方法难以实现细粒度的动作控制,缺乏动作风格的多样性,且自然语言难以表达动作的定量特征。
  2. LaMoGen将拉班动作分析的量化方法融入文本引导的扩散模型,通过操纵拉班努力和形状组件实现可解释和富有表现力的动作控制。
  3. 该方法在推理时优化文本嵌入,无需额外动作数据,即可根据目标拉班标签生成多样且富有表现力的动作,同时保持动作身份。

📝 摘要(中文)

高质量的人体动作生成日益重要,在计算机视觉、人机交互和动画等领域有着广泛的应用。利用扩散模型进行文本到动作合成已在生成高质量动作方面取得成功,但实现细粒度的、富有表现力的动作控制仍然是一个重大挑战。这主要是由于数据集中缺乏动作风格的多样性,以及难以用自然语言表达定量特征。拉班动作分析已被舞蹈专家广泛用于尽可能一致地表达包括动作质量在内的动作细节。受此启发,本文旨在通过将拉班努力和形状组件的量化方法无缝集成到文本引导的动作生成模型中,从而实现对人体动作生成的可解释和富有表现力的控制。我们提出的零样本、推理时优化方法通过在采样步骤中更新预训练扩散模型的文本嵌入,引导动作生成模型具有所需的拉班努力和形状组件,而无需任何额外的动作数据。我们证明了我们的方法通过成功地根据目标拉班标签操纵动作属性,在保持动作身份的同时产生多样化的富有表现力的动作质量。

🔬 方法详解

问题定义:现有的文本到动作生成方法,特别是基于扩散模型的方法,在生成高质量动作方面取得了进展。然而,它们在实现细粒度的、富有表现力的动作控制方面仍然面临挑战。主要痛点在于:一是数据集缺乏足够的动作风格多样性,导致模型难以生成具有不同风格的动作;二是自然语言难以准确表达动作的定量特征,例如动作的力度、速度、形状等,这限制了模型对动作细节的控制能力。

核心思路:LaMoGen的核心思路是将拉班动作分析(Laban Movement Analysis, LMA)的量化方法融入到文本引导的扩散模型中。LMA是一种被舞蹈专家广泛使用的动作分析方法,它可以将动作分解为努力(Effort)和形状(Shape)等组件,并对这些组件进行量化。通过将这些量化的LMA组件与文本描述相结合,可以更精确地控制动作的生成过程。

技术框架:LaMoGen的整体框架基于预训练的文本到动作扩散模型。该框架包含以下主要步骤:1) 输入文本描述和目标拉班标签;2) 使用文本编码器将文本描述转换为文本嵌入;3) 在扩散模型的采样过程中,通过优化文本嵌入来引导动作生成模型生成具有所需拉班努力和形状组件的动作。这种优化是在推理时进行的,不需要额外的动作数据。

关键创新:LaMoGen最重要的技术创新点在于其零样本、推理时优化方法。该方法通过在扩散模型的采样步骤中更新文本嵌入,来引导动作生成模型生成具有目标拉班标签的动作。与现有方法相比,LaMoGen不需要额外的动作数据来训练模型,而是利用预训练模型的知识和LMA的量化方法来实现细粒度的动作控制。

关键设计:LaMoGen的关键设计包括:1) 使用预训练的文本到动作扩散模型作为基础模型;2) 将拉班努力和形状组件的量化方法集成到扩散模型的采样过程中;3) 设计一种优化算法,用于在推理时更新文本嵌入,以引导动作生成模型生成具有目标拉班标签的动作。具体的优化算法细节(如损失函数、优化器等)在论文中可能有所描述,但此处信息不足,无法详细展开。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

LaMoGen通过零样本推理时优化,成功地将拉班动作分析融入文本到动作生成中。实验结果表明,该方法能够在保持动作身份的同时,根据目标拉班标签操纵动作属性,生成多样且富有表现力的动作。虽然论文中没有给出具体的性能数据和提升幅度,但定性结果表明LaMoGen在动作风格控制方面优于现有方法。

🎯 应用场景

LaMoGen具有广泛的应用前景,包括:1) 虚拟现实和增强现实中的人物动画生成,可以根据用户的文本描述生成具有特定风格和情感的虚拟人物动作;2) 游戏开发中的角色动画生成,可以快速生成各种游戏角色的动作,提高开发效率;3) 康复训练中的动作指导,可以根据患者的康复需求生成个性化的动作指导方案。该研究的实际价值在于提高了文本到动作生成的可控性和表现力,未来有望推动人机交互和动画制作等领域的发展。

📄 摘要(原文)

Diverse human motion generation is an increasingly important task, having various applications in computer vision, human-computer interaction and animation. While text-to-motion synthesis using diffusion models has shown success in generating high-quality motions, achieving fine-grained expressive motion control remains a significant challenge. This is due to the lack of motion style diversity in datasets and the difficulty of expressing quantitative characteristics in natural language. Laban movement analysis has been widely used by dance experts to express the details of motion including motion quality as consistent as possible. Inspired by that, this work aims for interpretable and expressive control of human motion generation by seamlessly integrating the quantification methods of Laban Effort and Shape components into the text-guided motion generation models. Our proposed zero-shot, inference-time optimization method guides the motion generation model to have desired Laban Effort and Shape components without any additional motion data by updating the text embedding of pretrained diffusion models during the sampling step. We demonstrate that our approach yields diverse expressive motion qualities while preserving motion identity by successfully manipulating motion attributes according to target Laban tags.