KETA: Kinematic-Phrases-Enhanced Text-to-Motion Generation via Fine-grained Alignment
作者: Yu Jiang, Yixing Chen, Xingyang Li
分类: cs.CV
发布日期: 2025-01-25
备注: 7 pages, 5 figures
💡 一句话要点
KETA:通过细粒度对齐增强运动学短语的文本到动作生成
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion)
关键词: 文本到动作生成 运动学短语 扩散模型 细粒度对齐 动作合成 自然语言处理 运动捕捉
📋 核心要点
- 现有文本到动作生成方法难以弥合自然语言和物理领域之间的差距,导致生成的动作与文本描述不完全一致。
- KETA方法利用运动学短语作为中间表示,将文本分解并与动作片段对齐,从而约束扩散模型的行为。
- 实验结果表明,KETA在R精度和FID值上均优于现有方法,并在多个T2M生成模型中取得了领先的性能。
📝 摘要(中文)
运动合成在人工智能的各个领域都起着至关重要的作用。在运动生成的各种条件中,文本可以详细地描述运动细节并且易于获取,这使得文本到动作(T2M)生成变得重要。目前最先进的T2M技术主要利用扩散模型,以文本提示作为指导来生成动作,从而解决T2M任务中多对多的问题。然而,由于自然语言领域和物理领域之间的差距,现有的T2M方法面临着挑战,难以生成与文本完全一致的动作。我们利用运动学短语(KP)这一桥接这两种模态的中间表示来解决这个问题。我们提出的方法KETA通过语言模型将给定的文本分解为几个分解后的文本。它训练一个对齐器,将分解后的文本与从生成的动作中提取的KP片段对齐。因此,可以约束基于扩散的T2M模型的行为。在训练阶段,我们将文本-KP对齐损失作为辅助目标来监督模型。在推理阶段,我们在解码器结构中对生成的动作进行多轮细化,其中我们计算文本-KP距离作为每一轮新的指导信号。实验表明,在基础模型运动扩散模型的两个骨干网络上,KETA实现了高达1.19倍、2.34倍的R精度和FID值的提升。与各种T2M生成模型相比,KETA实现了最佳或次佳的性能。
🔬 方法详解
问题定义:论文旨在解决文本到动作生成任务中,由于自然语言和物理领域之间的差异,导致生成的动作与文本描述不一致的问题。现有方法难以准确捕捉文本中的细粒度运动信息,生成的动作可能缺乏真实感和细节。
核心思路:论文的核心思路是引入运动学短语(Kinematic Phrases, KP)作为文本和动作之间的桥梁。通过将文本分解为与KP对应的片段,并训练模型学习文本片段与KP之间的对齐关系,从而实现对生成动作的更精细控制。这种方法能够更好地捕捉文本中的运动信息,并生成更符合文本描述的动作。
技术框架:KETA的整体框架包括以下几个主要模块:1) 文本分解模块:使用语言模型将输入文本分解为多个子文本,每个子文本对应一个运动学短语。2) 动作生成模块:使用扩散模型生成初始动作序列。3) 文本-KP对齐模块:训练一个对齐器,用于计算分解后的文本片段与从生成的动作中提取的KP片段之间的相似度。4) 动作细化模块:在推理阶段,通过多轮迭代,根据文本-KP距离调整生成的动作,使其更符合文本描述。
关键创新:KETA的关键创新在于引入了运动学短语作为中间表示,并设计了文本-KP对齐机制。与直接将文本映射到动作的方法相比,KETA能够更好地捕捉文本中的运动信息,并生成更精细、更真实的动作。此外,多轮动作细化机制进一步提高了生成动作的质量。
关键设计:在训练阶段,论文使用文本-KP对齐损失作为辅助目标,监督模型学习文本片段与KP之间的对齐关系。在推理阶段,使用文本-KP距离作为指导信号,指导动作细化模块进行多轮迭代。具体的损失函数和网络结构细节在论文中有详细描述,包括对齐器的具体实现方式,以及扩散模型的参数设置等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,KETA在HumanML3D数据集上取得了显著的性能提升。与基线模型Motion Diffusion Model相比,KETA在R精度上提升了1.19倍,在FID值上提升了2.34倍。此外,KETA在与其他先进的T2M生成模型相比,也取得了最佳或次佳的性能,证明了其有效性。
🎯 应用场景
KETA方法在虚拟现实、游戏开发、动画制作、机器人控制等领域具有广泛的应用前景。它可以用于生成逼真的人物动作,例如舞蹈、运动等,从而提升用户体验。此外,KETA还可以用于训练机器人执行复杂的任务,例如装配、搬运等,提高机器人的智能化水平。
📄 摘要(原文)
Motion synthesis plays a vital role in various fields of artificial intelligence. Among the various conditions of motion generation, text can describe motion details elaborately and is easy to acquire, making text-to-motion(T2M) generation important. State-of-the-art T2M techniques mainly leverage diffusion models to generate motions with text prompts as guidance, tackling the many-to-many nature of T2M tasks. However, existing T2M approaches face challenges, given the gap between the natural language domain and the physical domain, making it difficult to generate motions fully consistent with the texts. We leverage kinematic phrases(KP), an intermediate representation that bridges these two modalities, to solve this. Our proposed method, KETA, decomposes the given text into several decomposed texts via a language model. It trains an aligner to align decomposed texts with the KP segments extracted from the generated motions. Thus, it's possible to restrict the behaviors for diffusion-based T2M models. During the training stage, we deploy the text-KP alignment loss as an auxiliary goal to supervise the models. During the inference stage, we refine our generated motions for multiple rounds in our decoder structure, where we compute the text-KP distance as the guidance signal in each new round. Experiments demonstrate that KETA achieves up to 1.19x, 2.34x better R precision and FID value on both backbones of the base model, motion diffusion model. Compared to a wide range of T2M generation models. KETA achieves either the best or the second-best performance.