ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

📄 arXiv: 2603.09611v1 📥 PDF

作者: KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh Cho

分类: cs.CV

发布日期: 2026-03-10

备注: Accepted by CVPR 2026. Code: https://github.com/VisualScienceLab-KHU/ParTY


💡 一句话要点

ParTY:通过部件引导实现富有表现力的文本到动作合成

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 文本到动作合成 部件引导 运动生成 文本对齐 深度学习

📋 核心要点

  1. 现有文本到动作合成方法难以准确反映涉及特定身体部位的动作,缺乏部件级别的控制。
  2. ParTY框架通过部件引导网络、部件感知文本对齐和整体-部件融合,增强部件表现力并保证全身运动的连贯性。
  3. 实验结果表明,ParTY在部件级和连贯性级别上均优于现有方法,实现了显著的性能提升。

📝 摘要(中文)

文本到动作合成旨在从文本描述中生成自然且富有表现力的人体动作。现有方法主要关注从文本描述生成整体动作,但在准确反映涉及特定身体部位的动作方面存在困难。最近的部件级运动生成方法试图解决这个问题,但面临两个关键限制:(i)缺乏将文本语义与各个身体部位对齐的显式机制,以及(ii)由于整合独立生成的部件运动,常常生成不连贯的全身运动。为了克服这些问题并解决现有方法中的根本权衡,我们提出了ParTY,一种新颖的框架,可在生成连贯的全身运动的同时增强部件的表现力。ParTY包括:(1)部件引导网络,首先生成部件运动以获得部件引导,然后使用它来生成整体运动;(2)部件感知文本对齐,多样化地转换文本嵌入并将其与每个身体部位适当对齐;以及(3)整体-部件融合,自适应地融合整体运动和部件运动。广泛的实验,包括部件级和连贯性级别的评估,表明ParTY比以前的方法取得了显著的改进。

🔬 方法详解

问题定义:现有文本到动作合成方法主要关注整体动作生成,忽略了对特定身体部位动作的精确控制。部件级运动生成方法虽然尝试解决这个问题,但缺乏文本语义与身体部位的对齐机制,并且独立生成的部件运动容易导致全身运动不连贯。

核心思路:ParTY的核心思路是利用部件运动作为引导,先生成部件运动,再利用这些部件运动来指导整体运动的生成。通过这种方式,既能保证部件运动的准确性,又能保证整体运动的连贯性。同时,引入部件感知的文本对齐模块,将文本语义与各个身体部位进行精确匹配。

技术框架:ParTY框架主要包含三个模块:部件引导网络(Part-Guided Network)、部件感知文本对齐(Part-aware Text Grounding)和整体-部件融合(Holistic-Part Fusion)。首先,部件引导网络生成部件运动,并将其作为引导信息。然后,部件感知文本对齐模块将文本嵌入与各个身体部位对齐。最后,整体-部件融合模块自适应地融合整体运动和部件运动,生成最终的全身运动。

关键创新:ParTY的关键创新在于其部件引导机制和部件感知的文本对齐方式。部件引导机制通过先生成部件运动,再利用其引导整体运动,解决了部件运动和整体运动不连贯的问题。部件感知的文本对齐方式将文本语义与各个身体部位进行精确匹配,提高了部件运动的准确性。

关键设计:部件感知文本对齐模块使用多样化的文本嵌入转换方式,以适应不同身体部位的语义需求。整体-部件融合模块使用自适应的融合权重,根据不同情况调整整体运动和部件运动的贡献。损失函数方面,可能使用了运动学约束损失、对抗损失等,以保证生成运动的自然性和真实性(具体细节未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ParTY在部件级和连贯性级别的评估中均取得了显著的改进。具体性能数据和对比基线未知,但摘要强调了ParTY在增强部件表现力和保证全身运动连贯性方面的优势。实验结果表明,ParTY能够生成更准确、更自然的文本到动作合成结果。

🎯 应用场景

ParTY在虚拟现实、游戏开发、动画制作等领域具有广泛的应用前景。它可以根据文本描述自动生成逼真的人体动作,从而提高内容创作的效率和质量。此外,该技术还可以应用于人机交互领域,使机器人能够根据人类的指令做出更自然、更符合语境的动作。

📄 摘要(原文)

Text-to-motion synthesis aims to generate natural and expressive human motions from textual descriptions. While existing approaches primarily focus on generating holistic motions from text descriptions, they struggle to accurately reflect actions involving specific body parts. Recent part-wise motion generation methods attempt to resolve this but face two critical limitations: (i) they lack explicit mechanisms for aligning textual semantics with individual body parts, and (ii) they often generate incoherent full-body motions due to integrating independently generated part motions. To overcome these issues and resolve the fundamental trade-off in existing methods, we propose ParTY, a novel framework that enhances part expressiveness while generating coherent full-body motions. ParTY comprises: (1) Part-Guided Network, which first generates part motions to obtain part guidance, then uses it to generate holistic motions; (2) Part-aware Text Grounding, which diversely transforms text embeddings and appropriately aligns them with each body part; and (3) Holistic-Part Fusion, which adaptively fuses holistic motions and part motions. Extensive experiments, including part-level and coherence-level evaluations, demonstrate that ParTY achieves substantial improvements over previous methods.