Textual Decomposition Then Sub-motion-space Scattering for Open-Vocabulary Motion Generation
作者: Ke Fan, Jiangning Zhang, Ran Yi, Jingyu Gong, Yabiao Wang, Yating Wang, Xin Tan, Chengjie Wang, Lizhuang Ma
分类: cs.CV
发布日期: 2024-11-06
备注: project page: https://vankouf.github.io/DSONet/
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出DSO-Net,通过文本分解和子运动空间散射解决开放词汇运动生成问题。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 文本到运动生成 开放词汇 原子运动 运动合成 深度学习 自然语言处理 三维人体运动
📋 核心要点
- 现有文本到运动生成方法受限于数据集规模,无法实现从完整文本空间到完整运动空间的映射,导致开放词汇运动生成效果不佳。
- DSO-Net利用原子运动作为中间表示,通过文本分解将复杂文本转换为原子文本,再通过子运动空间散射学习原子运动到目标运动的组合。
- 实验表明,DSO-Net在开放词汇运动生成任务上取得了显著的性能提升,验证了所提方法的有效性。
📝 摘要(中文)
本文针对文本到运动生成任务中,现有方法在小规模数据集上过拟合,难以泛化到开放领域运动的问题,提出了一种新的方法。该方法利用原子运动作为中间表示,通过文本分解和子运动空间散射两个有序耦合的步骤来解决完整映射问题。文本分解部分,设计了一种细粒度的描述转换算法,并结合大型语言模型的泛化能力,将任意给定的运动文本转换为原子文本。子运动空间散射学习从原子运动到目标运动的组合过程,使学习到的子运动空间散射以形成完整的运动空间。提出的DSO-Net通过文本分解和子运动空间散射来解决开放词汇运动生成问题。实验结果表明,DSO-Net在开放词汇运动生成方面优于现有方法。
🔬 方法详解
问题定义:论文旨在解决开放词汇运动生成问题,即根据任意文本描述生成对应的3D人体运动。现有方法受限于训练数据集的规模,只能学习到文本子空间到运动子空间的映射,无法泛化到未见过的文本描述和运动。
核心思路:论文的核心思路是将复杂的文本到运动的映射分解为两个步骤:首先将文本分解为更小的、原子级别的文本描述,然后学习原子运动到完整运动的组合方式。通过这种方式,将外推问题转化为内插问题,从而提高泛化能力。
技术框架:DSO-Net包含两个主要模块:文本分解模块和子运动空间散射模块。文本分解模块利用大型语言模型和设计的细粒度描述转换算法,将输入的文本描述分解为原子文本序列。子运动空间散射模块学习原子运动序列到目标运动的映射,通过将子运动空间散射到整个运动空间,实现开放词汇运动生成。
关键创新:该方法最重要的创新点在于引入了原子运动作为中间表示,并将文本到运动的映射分解为文本分解和子运动空间散射两个步骤。这种分解的方式使得模型能够学习到更通用的运动组合规律,从而提高泛化能力。与现有方法直接学习文本到运动的映射不同,DSO-Net学习的是原子运动之间的组合关系。
关键设计:文本分解模块的关键设计在于细粒度描述转换算法,该算法用于将文本描述转换为原子文本。子运动空间散射模块的具体网络结构未知,但其目标是学习原子运动序列到目标运动的映射关系。损失函数的设计也未知,但可能包含重建损失和对抗损失等。
🖼️ 关键图片
📊 实验亮点
DSO-Net在开放词汇运动生成任务上取得了显著的性能提升,超越了现有的state-of-the-art方法。具体提升幅度未知,但论文强调了DSO-Net能够将外推问题转化为内插问题,从而显著提高泛化能力。实验结果验证了文本分解和子运动空间散射策略的有效性。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏开发、动画制作等领域,实现根据文本描述自动生成逼真的人体运动。例如,用户可以通过输入简单的文本指令,控制虚拟角色的动作,从而提高内容创作的效率和质量。未来,该技术还可以应用于人机交互、康复训练等领域。
📄 摘要(原文)
Text-to-motion generation is a crucial task in computer vision, which generates the target 3D motion by the given text. The existing annotated datasets are limited in scale, resulting in most existing methods overfitting to the small datasets and unable to generalize to the motions of the open domain. Some methods attempt to solve the open-vocabulary motion generation problem by aligning to the CLIP space or using the Pretrain-then-Finetuning paradigm. However, the current annotated dataset's limited scale only allows them to achieve mapping from sub-text-space to sub-motion-space, instead of mapping between full-text-space and full-motion-space (full mapping), which is the key to attaining open-vocabulary motion generation. To this end, this paper proposes to leverage the atomic motion (simple body part motions over a short time period) as an intermediate representation, and leverage two orderly coupled steps, i.e., Textual Decomposition and Sub-motion-space Scattering, to address the full mapping problem. For Textual Decomposition, we design a fine-grained description conversion algorithm, and combine it with the generalization ability of a large language model to convert any given motion text into atomic texts. Sub-motion-space Scattering learns the compositional process from atomic motions to the target motions, to make the learned sub-motion-space scattered to form the full-motion-space. For a given motion of the open domain, it transforms the extrapolation into interpolation and thereby significantly improves generalization. Our network, $DSO$-Net, combines textual $d$ecomposition and sub-motion-space $s$cattering to solve the $o$pen-vocabulary motion generation. Extensive experiments demonstrate that our DSO-Net achieves significant improvements over the state-of-the-art methods on open-vocabulary motion generation. Code is available at https://vankouf.github.io/DSONet/.