Pose-Guided Residual Refinement for Interpretable Text-to-Motion Generation and Editing

📄 arXiv: 2512.22464v1 📥 PDF

作者: Sukhyun Jeong, Yong-Hoon Choi

分类: cs.CV, cs.RO

发布日期: 2025-12-27


💡 一句话要点

提出姿态引导残差精炼方法,提升文本到动作生成与编辑的可解释性和保真度

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 文本到动作生成 动作编辑 姿态引导 残差精炼 向量量化 Transformer 可解释性

📋 核心要点

  1. 现有基于姿态码的文本到动作生成方法难以捕捉细微的时间动态和高频细节,导致重建保真度和局部可控性下降。
  2. 论文提出姿态引导残差精炼方法,通过残差向量量化学习残差码,增强姿态码,从而提升动作生成和编辑的质量。
  3. 实验结果表明,该方法在动作生成和编辑任务上,相较于CoMo等基线方法,在FID和重建指标上均有显著提升。

📝 摘要(中文)

本文提出了一种用于文本驱动的3D动作生成和编辑的姿态引导残差精炼方法(PGR$^2$M)。该方法旨在通过自然语言描述自动合成多样化的动作,或根据文本修改现有动作序列,同时保留其整体结构。PGR$^2$M采用混合表示,利用残差向量量化(RVQ)学习的残差码增强可解释的姿态码。姿态引导的RVQ tokenizer将动作分解为编码粗略全局结构的姿态潜在变量和建模精细时间变化的残差潜在变量。残差dropout进一步抑制对残差的过度依赖,保持姿态码的语义对齐和可编辑性。在此基础上,基础Transformer自回归地预测文本中的姿态码,精炼Transformer预测以文本、姿态码和量化阶段为条件的残差码。在HumanML3D和KIT-ML上的实验表明,与CoMo和最近的基于扩散和tokenization的基线相比,PGR$^2$M提高了生成和编辑的Fréchet inception distance和重建指标,用户研究证实它可以实现直观的、结构保持的动作编辑。

🔬 方法详解

问题定义:论文旨在解决文本到3D动作生成和编辑中,现有基于姿态码的方法难以捕捉动作序列中细微的时间动态和高频细节,导致动作重建保真度不足以及局部可控性差的问题。现有方法如CoMo虽然具有较好的可解释性,但其逐帧表示方式限制了其对动作序列时间信息的建模能力。

核心思路:论文的核心思路是将动作序列分解为粗略的全局姿态结构和精细的时间变化细节,分别用姿态码和残差码表示。通过姿态码捕捉动作的整体结构,并通过残差码对姿态码进行精细化,从而在保证可解释性的同时,提升动作的重建质量和局部可控性。这种混合表示方式能够更好地建模动作序列中的时间依赖关系。

技术框架:PGR$^2$M的整体框架包含三个主要模块:姿态引导的RVQ tokenizer、基础Transformer和精炼Transformer。首先,姿态引导的RVQ tokenizer将动作序列分解为姿态潜在变量和残差潜在变量。然后,基础Transformer自回归地预测文本描述对应的姿态码。最后,精炼Transformer以文本、姿态码和量化阶段为条件,预测残差码,从而对姿态码进行精细化。

关键创新:该方法最重要的技术创新点在于提出了姿态引导的残差精炼框架,将动作序列分解为姿态码和残差码,并使用残差向量量化(RVQ)学习残差码。与现有方法相比,该方法能够更好地建模动作序列中的时间依赖关系,从而提升动作的重建质量和局部可控性。此外,残差dropout策略能够防止模型过度依赖残差,从而保持姿态码的语义对齐和可编辑性。

关键设计:在姿态引导的RVQ tokenizer中,使用了多阶段的向量量化,逐步提取动作序列中的残差信息。残差dropout的概率是一个超参数,需要根据具体任务进行调整。基础Transformer和精炼Transformer均采用标准的Transformer结构,损失函数包括重建损失和对抗损失等。具体的参数设置和网络结构细节在论文中有详细描述。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,PGR$^2$M在HumanML3D和KIT-ML数据集上,相较于CoMo和最近的基于扩散和tokenization的基线方法,在Fréchet inception distance (FID) 和重建指标上均有显著提升。用户研究也证实,PGR$^2$M能够实现直观的、结构保持的动作编辑,表明该方法具有良好的可解释性和可控性。具体提升幅度未知,需查阅原文。

🎯 应用场景

该研究成果可应用于虚拟现实、游戏开发、动画制作等领域,实现通过自然语言控制虚拟角色的动作,或对现有动作进行编辑和修改。该技术能够降低动作生成和编辑的门槛,提高创作效率,并为用户提供更加自然和直观的交互体验。未来,该技术有望应用于机器人控制领域,实现通过自然语言指令控制机器人的动作。

📄 摘要(原文)

Text-based 3D motion generation aims to automatically synthesize diverse motions from natural-language descriptions to extend user creativity, whereas motion editing modifies an existing motion sequence in response to text while preserving its overall structure. Pose-code-based frameworks such as CoMo map quantifiable pose attributes into discrete pose codes that support interpretable motion control, but their frame-wise representation struggles to capture subtle temporal dynamics and high-frequency details, often degrading reconstruction fidelity and local controllability. To address this limitation, we introduce pose-guided residual refinement for motion (PGR$^2$M), a hybrid representation that augments interpretable pose codes with residual codes learned via residual vector quantization (RVQ). A pose-guided RVQ tokenizer decomposes motion into pose latents that encode coarse global structure and residual latents that model fine-grained temporal variations. Residual dropout further discourages over-reliance on residuals, preserving the semantic alignment and editability of the pose codes. On top of this tokenizer, a base Transformer autoregressively predicts pose codes from text, and a refine Transformer predicts residual codes conditioned on text, pose codes, and quantization stage. Experiments on HumanML3D and KIT-ML show that PGR$^2$M improves Fréchet inception distance and reconstruction metrics for both generation and editing compared with CoMo and recent diffusion- and tokenization-based baselines, while user studies confirm that it enables intuitive, structure-preserving motion edits.