SMooGPT: Stylized Motion Generation using Large Language Models
作者: Lei Zhong, Yi Yang, Changjian Li
分类: cs.GR, cs.CV
发布日期: 2025-09-04 (更新: 2026-01-26)
💡 一句话要点
提出SMooGPT,利用大型语言模型生成风格化人体运动
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 风格化运动生成 大型语言模型 人体运动 文本驱动 运动合成
📋 核心要点
- 现有风格化运动生成方法可解释性差,难以控制,且对新风格的泛化能力有限,无法生成多样运动。
- SMooGPT利用大型语言模型,将人体运动分解为身体部位文本描述,实现推理、组合和生成风格化运动。
- 实验表明,SMooGPT在纯文本驱动的风格化运动生成方面表现出色,并具有良好的可解释性和控制性。
📝 摘要(中文)
风格化运动生成是计算机图形学中一个活跃的研究领域,尤其受益于扩散模型的快速发展。该任务旨在生成既尊重运动内容又符合所需运动风格的新运动,例如“像猴子一样绕圈行走”。现有的研究试图通过运动风格迁移或条件运动生成来解决这个问题。它们通常将运动风格嵌入到潜在空间中,并在潜在空间中隐式地引导运动。尽管取得了一些进展,但它们的方法存在可解释性和控制性低、对新风格的泛化能力有限以及由于公共风格化数据集中的强烈偏差而无法生成“行走”以外的运动等问题。在本文中,我们基于以下观察,从推理-组合-生成的全新角度提出了解决风格化运动生成问题的方法:i) 人体运动通常可以使用自然语言以身体部位为中心的方式有效地描述,ii) LLM 表现出强大的理解和推理人体运动的能力,以及 iii) 人体运动具有固有的组合性质,从而可以通过有效的重组来促进新的运动内容或风格生成。因此,我们提出利用身体部位文本空间作为中间表示,并提出 SMooGPT,这是一种经过微调的 LLM,在生成所需的风格化运动时充当推理器、组合器和生成器。我们的方法在具有更高可解释性的身体部位文本空间中执行,从而实现细粒度的运动控制,有效解决运动内容和风格之间潜在的冲突,并且由于 LLM 的开放词汇能力而很好地推广到新的风格。全面的实验和评估以及用户感知研究证明了我们方法的有效性,尤其是在纯文本驱动的风格化运动生成下。
🔬 方法详解
问题定义:现有风格化运动生成方法主要通过运动风格迁移或条件运动生成实现,依赖于将运动风格嵌入潜在空间,并隐式引导运动。这些方法存在可解释性差、控制性弱、泛化能力有限等问题,且受限于数据集的偏差,难以生成“行走”之外的运动。
核心思路:论文的核心思路是将风格化运动生成问题分解为推理-组合-生成三个阶段,并利用大型语言模型(LLM)在自然语言理解和推理方面的强大能力。通过将人体运动分解为以身体部位为中心的文本描述,实现对运动内容和风格的细粒度控制和组合。
技术框架:SMooGPT 的整体框架包括以下几个主要模块:1) 身体部位文本表示:将人体运动分解为各个身体部位的文本描述。2) LLM 推理器:利用微调的 LLM 对运动内容和风格进行推理,生成相应的身体部位文本描述。3) 运动组合器:将各个身体部位的文本描述组合成完整的运动描述。4) 运动生成器:将运动描述转换为最终的运动序列。
关键创新:该方法最重要的创新点在于利用身体部位文本空间作为中间表示,将风格化运动生成问题转化为自然语言处理问题。这种方法具有更高的可解释性,能够实现细粒度的运动控制,并有效解决运动内容和风格之间的潜在冲突。此外,LLM 的开放词汇能力使得该方法能够很好地泛化到新的风格。
关键设计:SMooGPT 的关键设计包括:1) 身体部位文本表示的粒度选择,需要平衡表达能力和计算复杂度。2) LLM 的微调策略,需要针对运动生成任务进行优化。3) 运动组合器的设计,需要保证运动的连贯性和自然性。4) 损失函数的设计,需要同时考虑运动内容和风格的相似性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,SMooGPT 在风格化运动生成方面取得了显著的成果。用户感知研究表明,SMooGPT 生成的运动在风格相似性和运动质量方面均优于现有方法。尤其是在纯文本驱动的风格化运动生成任务中,SMooGPT 展现出强大的能力,能够生成符合文本描述的各种风格化运动。
🎯 应用场景
SMooGPT 可应用于虚拟现实、游戏开发、动画制作等领域,实现逼真且风格化的角色运动生成。该方法能够根据文本描述生成各种风格的运动,为用户提供更大的创作自由和控制力。未来,该技术有望应用于机器人控制领域,使机器人能够根据自然语言指令执行各种复杂的运动任务。
📄 摘要(原文)
Stylized motion generation is actively studied in computer graphics, especially benefiting from the rapid advances in diffusion models. The goal of this task is to produce a novel motion respecting both the motion content and the desired motion style, e.g.,
walking in a loop like a Monkey''. Existing research attempts to address this problem via motion style transfer or conditional motion generation. They typically embed the motion style into a latent space and guide the motion implicitly in a latent space as well. Despite the progress, their methods suffer from low interpretability and control, limited generalization to new styles, and fail to produce motions other thanwalking'' due to the strong bias in the public stylization dataset. In this paper, we propose to solve the stylized motion generation problem from a new perspective of reasoning-composition-generation, based on our observations: i) human motion can often be effectively described using natural language in a body-part centric manner, ii) LLMs exhibit a strong ability to understand and reason about human motion, and iii) human motion has an inherently compositional nature, facilitating the new motion content or style generation via effective recomposing. We thus propose utilizing body-part text space as an intermediate representation, and present SMooGPT, a fine-tuned LLM, acting as a reasoner, composer, and generator when generating the desired stylized motion. Our method executes in the body-part text space with much higher interpretability, enabling fine-grained motion control, effectively resolving potential conflicts between motion content and style, and generalizes well to new styles thanks to the open-vocabulary ability of LLMs. Comprehensive experiments and evaluations, and a user perceptual study, demonstrate the effectiveness of our approach, especially under the pure text-driven stylized motion generation.