Motion Avatar: Generate Human and Animal Avatars with Arbitrary Motion
作者: Zeyu Zhang, Yiran Wang, Biao Wu, Shuo Chen, Zhiyuan Zhang, Shiya Huang, Wenbo Zhang, Meng Fang, Ling Chen, Yang Zhao
分类: cs.CV
发布日期: 2024-05-18 (更新: 2024-08-30)
备注: Accepted to BMVC 2024
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出Motion Avatar,通过文本查询生成可定制的人和动物3D动态化身。
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 动态化身生成 文本驱动生成 LLM规划器 动物运动数据集 3D角色生成
📋 核心要点
- 现有方法难以将3D化身生成与运动生成相结合,且动物化身生成因数据和方法不足而面临挑战。
- Motion Avatar采用基于代理的方法,通过文本查询自动生成高质量、可定制的人和动物动态化身。
- 引入LLM规划器协调运动和化身生成,并构建包含30万文本-运动对的动物运动数据集Zoo-300K。
📝 摘要(中文)
近年来,创建3D化身和动作引起了人们的极大兴趣,这得益于它们在电影制作、视频游戏、AR/VR和人机交互等领域的广泛应用。然而,目前的研究主要集中在单独生成3D化身网格或生成运动序列,而将这两个方面结合起来仍然是一个持续的挑战。此外,虽然化身和运动生成主要针对人类,但由于缺乏足够的训练数据和方法,将这些技术扩展到动物仍然是一个重大挑战。为了弥合这些差距,本文提出了三个关键贡献。首先,我们提出了一种名为Motion Avatar的新型基于代理的方法,该方法允许通过文本查询自动生成具有运动的高质量可定制的人和动物化身。该方法显著推进了动态3D角色生成方面的进展。其次,我们引入了一个LLM规划器,用于协调运动和化身生成,将判别式规划转换为可定制的问答方式。最后,我们提出了一个名为Zoo-300K的动物运动数据集,其中包含大约300,000个跨65个动物类别的文本-运动对及其构建流程ZooGen,这为社区提供了宝贵的资源。
🔬 方法详解
问题定义:现有方法主要集中于独立生成3D化身网格或运动序列,缺乏有效整合两者的方法。同时,针对动物的化身和运动生成面临训练数据不足和方法不完善的挑战,导致生成质量和多样性受限。因此,需要一种能够统一生成高质量、可定制的人和动物动态化身的方法。
核心思路:Motion Avatar的核心思路是利用基于代理的方法,通过文本查询驱动化身和运动的生成。通过引入LLM规划器,将生成过程转化为可定制的问答形式,从而更好地控制化身的属性和运动特征。此外,构建大规模动物运动数据集Zoo-300K,为动物化身和运动生成提供充足的训练数据。
技术框架:Motion Avatar的整体框架包含以下几个主要模块:1) 文本查询输入模块:接收用户输入的文本描述,用于指定化身的属性和运动特征。2) LLM规划器:根据文本查询,规划化身生成和运动生成的步骤和参数。3) 化身生成模块:根据LLM规划器的输出,生成3D化身网格。4) 运动生成模块:根据LLM规划器的输出,生成运动序列。5) 渲染模块:将生成的化身和运动序列进行渲染,生成最终的动态化身。
关键创新:Motion Avatar的关键创新在于:1) 提出了一种基于代理的化身和运动统一生成方法,能够同时生成高质量的化身和运动。2) 引入LLM规划器,将生成过程转化为可定制的问答形式,提高了生成的可控性。3) 构建大规模动物运动数据集Zoo-300K,为动物化身和运动生成提供了充足的训练数据。
关键设计:LLM规划器采用Transformer架构,使用文本查询作为输入,输出化身生成和运动生成的参数。化身生成模块采用神经辐射场(NeRF)或类似技术,根据LLM规划器的输出生成3D化身网格。运动生成模块采用变分自编码器(VAE)或生成对抗网络(GAN),根据LLM规划器的输出生成运动序列。Zoo-300K数据集的构建流程ZooGen包含数据收集、清洗、标注等步骤,确保数据的质量和多样性。
🖼️ 关键图片
📊 实验亮点
论文构建了包含65个动物类别,约30万文本-动作对的动物运动数据集Zoo-300K,并提出了基于LLM规划器的Motion Avatar框架,实现了通过文本驱动的、高质量的人和动物动态化身生成。具体性能数据和对比基线在论文中未明确给出,但项目网站展示了生成结果,表明该方法在动态3D角色生成方面取得了显著进展。
🎯 应用场景
Motion Avatar具有广泛的应用前景,包括电影制作、视频游戏、AR/VR、人机交互等领域。它可以用于创建逼真且可定制的角色,增强用户体验,并为虚拟世界带来更多可能性。此外,该技术还可以应用于机器人控制、动画制作等领域,具有重要的实际价值和未来影响。
📄 摘要(原文)
In recent years, there has been significant interest in creating 3D avatars and motions, driven by their diverse applications in areas like film-making, video games, AR/VR, and human-robot interaction. However, current efforts primarily concentrate on either generating the 3D avatar mesh alone or producing motion sequences, with integrating these two aspects proving to be a persistent challenge. Additionally, while avatar and motion generation predominantly target humans, extending these techniques to animals remains a significant challenge due to inadequate training data and methods. To bridge these gaps, our paper presents three key contributions. Firstly, we proposed a novel agent-based approach named Motion Avatar, which allows for the automatic generation of high-quality customizable human and animal avatars with motions through text queries. The method significantly advanced the progress in dynamic 3D character generation. Secondly, we introduced a LLM planner that coordinates both motion and avatar generation, which transforms a discriminative planning into a customizable Q&A fashion. Lastly, we presented an animal motion dataset named Zoo-300K, comprising approximately 300,000 text-motion pairs across 65 animal categories and its building pipeline ZooGen, which serves as a valuable resource for the community. See project website https://steve-zeyu-zhang.github.io/MotionAvatar/