ACMo: Attribute Controllable Motion Generation

📄 arXiv: 2503.11038v1 📥 PDF

作者: Mingjie Wei, Xuemei Xie, Guangming Shi

分类: cs.CV

发布日期: 2025-03-14

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出ACMo,实现属性可控的运动生成,解决现有方法控制精度不足和泛化性差的问题。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 运动生成 属性控制 扩散模型 文本到运动 运动适配 LLM规划 多模态学习

📋 核心要点

  1. 现有文本到运动生成方法缺乏对运动属性的精确控制,且对未见运动的泛化能力不足。
  2. ACMo通过解耦条件属性,利用属性扩散模型、运动适配器和LLM规划器实现属性可控的运动生成。
  3. ACMo实现了细粒度和用户友好的属性控制,并在性能上与现有最佳方法相当。

📝 摘要(中文)

本文提出了一种属性可控的运动生成架构ACMo,旨在解决现有方法在运动属性控制精度不足以及对未见过的运动模式泛化能力有限的问题。ACMo通过解耦各种条件并分别控制它们来实现更精确的控制。首先,探索了属性扩散模型,通过解耦文本和运动学习来提升文本到运动的生成性能,因为可控模型严重依赖于预训练模型。其次,引入了运动适配器,以快速微调先前未见过的运动模式。其运动提示输入实现了多模态文本到运动的生成,能够捕捉用户指定的风格。最后,提出了一个LLM规划器,通过局部知识弥合了未见过的属性和数据集特定文本之间的差距,从而实现用户友好的交互。该方法引入了运动提示能力,用于风格化生成,实现了细粒度和用户友好的属性控制,同时提供了与最先进方法相当的性能。

🔬 方法详解

问题定义:现有文本到运动生成方法难以精确控制运动的风格、轨迹等属性,并且对于训练集中未出现过的运动模式泛化能力较差。用户难以根据自身需求定制运动,交互体验不佳。

核心思路:ACMo的核心思路是将运动生成过程中的各种属性(如文本描述、运动风格、轨迹等)解耦,然后分别进行控制。通过这种方式,用户可以更灵活地指定运动的各个方面,从而生成更符合需求的运动。

技术框架:ACMo的整体架构包含三个主要模块:1) 属性扩散模型 (Attribute Diffusion Model):用于解耦文本和运动的学习,提升文本到运动的生成性能。2) 运动适配器 (Motion Adapter):用于快速微调未见过的运动模式,通过运动提示实现多模态文本到运动的生成。3) LLM规划器 (LLM Planner):利用大型语言模型弥合未见属性和数据集特定文本之间的差距,实现用户友好的交互。

关键创新:ACMo的关键创新在于其属性解耦和控制机制。通过属性扩散模型、运动适配器和LLM规划器的组合,ACMo实现了对运动属性的细粒度控制,并提高了对未见运动模式的泛化能力。运动适配器允许模型快速适应新的运动风格,而LLM规划器则简化了用户与模型的交互。

关键设计:属性扩散模型可能采用条件扩散模型,其中文本描述作为条件输入。运动适配器可能采用少量样本学习或元学习策略,以快速适应新的运动模式。LLM规划器可能使用提示工程或微调技术,以更好地理解用户意图并生成相应的运动描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ACMo通过属性解耦和控制,实现了对运动属性的细粒度控制,并在文本到运动生成任务上取得了与现有最佳方法相当的性能。运动适配器能够快速适应新的运动风格,LLM规划器简化了用户交互,使得用户可以更方便地生成所需的运动。

🎯 应用场景

ACMo可应用于虚拟现实、游戏开发、动画制作等领域,用户可以根据文本描述或特定风格,生成定制化的角色运动。该技术还可用于机器人控制,使机器人能够根据指令执行更自然、更符合人类习惯的动作。未来,ACMo有望成为人机交互的重要组成部分,提升用户体验。

📄 摘要(原文)

Attributes such as style, fine-grained text, and trajectory are specific conditions for describing motion. However, existing methods often lack precise user control over motion attributes and suffer from limited generalizability to unseen motions. This work introduces an Attribute Controllable Motion generation architecture, to address these challenges via decouple any conditions and control them separately. Firstly, we explored the Attribute Diffusion Model to imporve text-to-motion performance via decouple text and motion learning, as the controllable model relies heavily on the pre-trained model. Then, we introduce Motion Adpater to quickly finetune previously unseen motion patterns. Its motion prompts inputs achieve multimodal text-to-motion generation that captures user-specified styles. Finally, we propose a LLM Planner to bridge the gap between unseen attributes and dataset-specific texts via local knowledage for user-friendly interaction. Our approach introduces the capability for motion prompts for stylize generation, enabling fine-grained and user-friendly attribute control while providing performance comparable to state-of-the-art methods. Project page: https://mjwei3d.github.io/ACMo/