Motion-Agent: A Conversational Framework for Human Motion Generation with LLMs

📄 arXiv: 2405.17013v3 📥 PDF

作者: Qi Wu, Yubo Zhao, Yifan Wang, Xinhang Liu, Yu-Wing Tai, Chi-Keung Tang

分类: cs.CV

发布日期: 2024-05-27 (更新: 2024-10-06)

备注: Project page: https://knoxzhao.github.io/Motion-Agent

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

提出Motion-Agent,利用LLM实现通用人运动生成、编辑与理解的对话式框架

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 人体运动生成 预训练语言模型 对话式交互 运动token化 Adapter微调

📋 核心要点

  1. 现有3D人体运动生成方法依赖大量训练,且通常局限于特定任务,缺乏通用性和灵活性。
  2. Motion-Agent通过MotionLLM将运动编码为离散token,并与预训练语言模型对齐,实现运动和文本的桥梁。
  3. Motion-Agent仅微调少量参数,性能媲美甚至超越从头训练的模型,并能通过多轮对话生成复杂运动。

📝 摘要(中文)

本文提出Motion-Agent,一个高效的对话式框架,用于通用人体运动生成、编辑和理解。为了解决现有3D人体运动生成方法依赖大量训练数据且任务受限的问题,Motion-Agent利用开源预训练语言模型构建生成式代理MotionLLM,弥合了运动和文本之间的差距。通过将运动编码和量化为离散token,使其与语言模型的词汇对齐。仅使用1-3%的模型参数进行微调(通过adapter),MotionLLM的性能即可与从头训练的扩散模型和其他基于Transformer的方法相媲美。通过将MotionLLM与GPT-4集成,无需额外训练,Motion-Agent能够通过多轮对话生成高度复杂的运动序列,这是以往模型难以实现的。Motion-Agent支持广泛的运动-语言任务,为通过交互式对话交流生成和定制人体运动提供了多功能能力。

🔬 方法详解

问题定义:现有3D人体运动生成方法需要大量训练,并且通常只能处理特定的任务,缺乏通用性和交互性。这些方法难以通过自然语言进行灵活的运动编辑和控制,也难以理解复杂的运动指令。

核心思路:本文的核心思路是利用预训练语言模型(LLM)强大的文本理解和生成能力,将其迁移到人体运动生成领域。通过将运动数据转换为LLM可以处理的token序列,并结合对话式交互,实现灵活、通用的运动生成、编辑和理解。

技术框架:Motion-Agent包含两个主要模块:MotionLLM和GPT-4。MotionLLM是一个基于预训练语言模型的运动生成代理,负责将文本指令转换为运动token序列。GPT-4则作为高级对话管理器,负责处理多轮对话,并协调MotionLLM生成符合要求的运动序列。整体流程是:用户输入文本指令,GPT-4解析指令并与MotionLLM交互,MotionLLM生成运动token序列,然后解码为3D人体运动。

关键创新:关键创新在于将运动数据编码为离散的token序列,使其能够被预训练语言模型处理。通过这种方式,可以利用LLM强大的文本理解和生成能力,实现对人体运动的灵活控制和编辑。此外,通过对话式交互,可以实现更复杂的运动生成任务,例如根据用户的反馈进行迭代优化。

关键设计:MotionLLM使用Adapter进行微调,仅更新1-3%的模型参数,降低了训练成本。运动token化采用VQ-VAE(Vector Quantized Variational Autoencoder)进行编码,将连续的运动数据映射到离散的token空间。损失函数主要包括语言模型的交叉熵损失和VQ-VAE的重构损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Motion-Agent仅使用1-3%的模型参数进行微调,即可达到与从头训练的扩散模型和Transformer模型相媲美的性能。通过与GPT-4集成,Motion-Agent能够生成高度复杂的运动序列,并支持多轮对话交互,这在以往的模型中难以实现。实验结果表明,Motion-Agent在各种运动-语言任务上都表现出色,证明了其通用性和有效性。

🎯 应用场景

Motion-Agent具有广泛的应用前景,包括虚拟现实、游戏开发、动画制作、康复训练等领域。它可以用于创建逼真的人体运动动画,实现虚拟角色的自然交互,辅助康复患者进行运动训练,以及为游戏开发者提供更灵活的运动控制工具。未来,Motion-Agent有望成为人机交互的重要组成部分,促进人与虚拟世界的融合。

📄 摘要(原文)

While previous approaches to 3D human motion generation have achieved notable success, they often rely on extensive training and are limited to specific tasks. To address these challenges, we introduce Motion-Agent, an efficient conversational framework designed for general human motion generation, editing, and understanding. Motion-Agent employs an open-source pre-trained language model to develop a generative agent, MotionLLM, that bridges the gap between motion and text. This is accomplished by encoding and quantizing motions into discrete tokens that align with the language model's vocabulary. With only 1--3\% of the model's parameters fine-tuned using adapters, MotionLLM delivers performance on par with diffusion models and other transformer-based methods trained from scratch. By integrating MotionLLM with GPT-4 without additional training, Motion-Agent is able to generate highly complex motion sequences through multi-turn conversations, a capability that previous models have struggled to achieve. Motion-Agent supports a wide range of motion-language tasks, offering versatile capabilities for generating and customizing human motion through interactive conversational exchanges. Project page: https://knoxzhao.github.io/Motion-Agent