Contact Matrix: Enhancing Dance Motion Synthesis with Precise Interaction Modeling
作者: Xuhai Chen, Zhi Cen, Huaijin Pi, Sida Peng, Xiaowei Zhou, Yong Liu
分类: cs.CV
发布日期: 2026-05-06
💡 一句话要点
提出Contact Matrix,通过精确交互建模增强舞蹈动作合成效果
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱五:交互与反应 (Interaction & Reaction) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)
关键词: 舞蹈动作合成 反应性动作生成 接触矩阵 VQ-VAE 扩散模型 人机交互 运动建模
📋 核心要点
- 现有反应性动作生成方法难以处理双人舞中复杂的交互约束和高质量数据稀缺的问题。
- 提出一种两阶段框架,首先使用运动VQ-VAE增强动作表征,然后使用接触感知扩散模型显式建模交互。
- 实验结果表明,该方法在交互保真度和节奏同步性方面优于现有方法Duolando。
📝 摘要(中文)
本文致力于解决生成逼真反应性动作的问题,即一人对他人固定动作做出反应。由于严格的交互约束和有限的可行解空间,该问题极具挑战性。本文聚焦于双人舞这一典型场景,其中高质量数据稀缺,动作模式复杂,人际互动细节丰富且错综复杂。为应对这些挑战,我们提出了一种新颖的两阶段框架。第一阶段,我们引入了一种带有独立身体部位编码器和联合解码器的运动VQ-VAE,从而能够使用专门的代码本增强表征能力,同时在解码过程中动态地建模身体部位之间的依赖关系,从而防止生成的动作不一致。第二阶段,我们提出了一种接触感知扩散模型,用于反应性运动生成,该模型联合生成运动和个体之间的接触矩阵,从而实现显式交互建模,并为采样过程中更精确和受约束的交互动力学提供指导。实验表明,我们的方法优于Duolando,具有更低的$ ext{FID}k$ (8.89 vs. 25.30) 和 $ ext{FID}{cd}$ (8.01 vs. 9.97),以及更高的BED (0.4606 vs. 0.2858),表明交互保真度和节奏同步性得到了改善。
🔬 方法详解
问题定义:论文旨在解决双人舞场景下,生成逼真反应性动作的问题。现有方法难以精确建模人与人之间的复杂交互关系,导致生成的舞蹈动作不够自然和协调。此外,高质量的双人舞数据集稀缺,也限制了现有方法的性能。
核心思路:论文的核心思路是显式地建模人与人之间的接触和交互关系。通过引入接触矩阵,模型可以学习到哪些身体部位在何时发生接触,从而更好地理解和生成符合物理规律和舞蹈规范的动作。同时,使用VQ-VAE来增强动作表征能力,并使用扩散模型来生成高质量的反应性动作。
技术框架:整个框架分为两个阶段: 1. 运动VQ-VAE阶段:使用独立的身体部位编码器和联合解码器,学习高质量的动作表征。每个身体部位都有自己的代码本,用于存储该部位的运动模式。解码器则负责将这些运动模式组合成完整的舞蹈动作。 2. 接触感知扩散模型阶段:联合生成舞蹈动作和接触矩阵。扩散模型从噪声开始,逐步生成逼真的舞蹈动作,同时根据接触矩阵的约束,调整动作的细节,使其符合人与人之间的交互关系。
关键创新:论文的关键创新在于引入了接触矩阵来显式地建模人与人之间的交互关系。这种方法可以有效地提高生成舞蹈动作的真实性和协调性。此外,使用运动VQ-VAE来增强动作表征能力,也有助于生成更高质量的舞蹈动作。
关键设计: * 运动VQ-VAE:使用独立的身体部位编码器,可以更好地捕捉每个部位的运动特征。联合解码器则可以学习到不同部位之间的依赖关系。 * 接触感知扩散模型:使用条件扩散模型,将接触矩阵作为条件输入,引导扩散过程生成符合交互关系的动作。损失函数包括运动损失、接触损失等,用于约束生成的动作和接触矩阵。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在$ ext{FID}k$、$ ext{FID}{cd}$和BED等指标上均优于现有方法Duolando。具体来说,$ ext{FID}k$从25.30降低到8.89,$ ext{FID}{cd}$从9.97降低到8.01,BED从0.2858提高到0.4606。这些数据表明,该方法在交互保真度和节奏同步性方面取得了显著的提升。
🎯 应用场景
该研究成果可应用于虚拟现实、游戏开发、动画制作等领域。例如,可以用于创建逼真的虚拟舞蹈伙伴,或者用于生成各种风格的舞蹈动画。此外,该技术还可以扩展到其他需要建模人与人之间交互的场景,例如协同机器人、人机协作等。
📄 摘要(原文)
Generating realistic reactive motions, in which one person reacts to the fixed motions of others, is challenging due to strict interaction constraints and a limited feasible solution space. This paper focuses on a typical scenario: duet dance, where high-quality data is scarce, motion patterns are complex, and the details of human interactions are both intricate and abundant. To tackle these challenges, we propose a novel two-stage framework. In the first stage, we introduce a motion VQ-VAE with separate body-part encoders and a joint decoder, enabling specialized codebooks to enhance representation capacity while dynamically modeling dependencies across body parts during decoding, thereby preventing inconsistencies in the generated motions. In the second stage, we propose a contact-aware diffusion model for reactive motion generation that jointly generates motion and a contact matrix between individuals, enabling explicit interaction modeling and providing guidance toward more precise and constrained interaction dynamics during sampling. Experiments show that our method outperforms Duolando with lower $\text{FID}k$ (8.89 vs. 25.30) and $\text{FID}{cd}$ (8.01 vs. 9.97), as well as a higher BED (0.4606 vs. 0.2858), indicating improved interaction fidelity and rhythmic synchronization.