EverybodyDance: Bipartite Graph-Based Identity Correspondence for Multi-Character Animation

📄 arXiv: 2512.16360v1 📥 PDF

作者: Haotian Ling, Zequn Chen, Qiuying Chen, Donglin Di, Yongjia Ma, Hao Li, Chen Wei, Zhulin Tao, Xun Yang

分类: cs.CV

发布日期: 2025-12-18


💡 一句话要点

EverybodyDance:基于二分图的角色匹配方法,用于多角色动画中的身份一致性保持。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 多角色动画 身份对应 二分图匹配 姿态驱动 深度学习

📋 核心要点

  1. 现有姿态驱动的角色动画在单角色场景中取得了显著进展,但扩展到多角色场景,尤其是在涉及位置交换时,极具挑战。
  2. EverybodyDance的核心思想是将角色间的身份对应关系建模为二分图,并通过优化图结构来保证生成动画中角色身份的正确性。
  3. 论文提出了身份对应评估基准,并通过大量实验证明,EverybodyDance在身份对应和视觉保真度方面均优于现有方法。

📝 摘要(中文)

本文提出EverybodyDance,一个针对多角色动画中身份对应(IC)正确性的系统性解决方案。核心是身份匹配图(IMG),它将生成帧和参考帧中的角色建模为加权完全二分图中的两个节点集合。通过提出的Mask-Query Attention(MQA)计算边权重,量化角色对之间的亲和力。论文将IC正确性形式化为图结构度量,并在训练期间优化它。此外,还提出了一系列针对多角色动画的策略,包括身份嵌入引导、多尺度匹配策略和预分类采样。最后,创建了身份对应评估基准,用于评估多角色IC正确性。大量实验表明,EverybodyDance在IC和视觉保真度方面均优于现有技术水平。

🔬 方法详解

问题定义:论文旨在解决多角色动画生成中身份对应(Identity Correspondence, IC)问题。现有方法在处理多角色场景,特别是角色位置发生交换时,难以保证生成动画中角色身份的正确性,导致角色混乱或身份错配。现有方法缺乏对角色间关系建模和身份一致性约束的有效机制。

核心思路:论文的核心思路是将多角色动画中的身份对应问题建模为一个二分图匹配问题。通过构建身份匹配图(Identity Matching Graph, IMG),将参考帧和生成帧中的角色分别表示为图的两个节点集合,并利用Mask-Query Attention (MQA)机制计算节点之间的边权重,从而量化角色之间的相似度或亲和力。通过优化该二分图的匹配关系,可以实现角色身份的正确对应。

技术框架:EverybodyDance的整体框架包含以下几个主要模块:1) 身份匹配图(IMG)构建:将参考帧和生成帧中的角色检测出来,分别作为二分图的两个节点集合。2) Mask-Query Attention(MQA):利用MQA机制计算节点之间的边权重,该权重反映了角色之间的相似度。MQA使用角色的mask作为query,去attention参考帧中的特征,从而得到角色间的匹配程度。3) 图结构优化:将身份对应正确性形式化为图结构度量,并在训练过程中优化该度量,以保证生成动画中角色身份的正确性。4) 身份嵌入引导:通过引入身份嵌入,引导生成器生成具有特定身份的角色。5) 多尺度匹配策略:在多个尺度上进行角色匹配,以提高匹配的鲁棒性。6) 预分类采样:根据角色类别进行采样,以平衡不同类别角色的训练数据。

关键创新:论文最重要的技术创新点在于将多角色动画中的身份对应问题建模为一个二分图匹配问题,并提出了相应的图结构优化方法。与现有方法相比,该方法能够显式地建模角色之间的关系,并利用图结构信息来约束角色身份的对应关系。此外,MQA机制能够有效地计算角色之间的相似度,从而提高匹配的准确性。

关键设计:1) Mask-Query Attention (MQA):使用角色的mask作为query,去attention参考帧中的特征,从而得到角色间的匹配程度。2) 图结构损失:设计了图结构损失函数,用于优化二分图的匹配关系,保证角色身份的正确对应。3) 身份嵌入:引入身份嵌入,引导生成器生成具有特定身份的角色。4) 多尺度匹配:在多个尺度上进行角色匹配,以提高匹配的鲁棒性。5) 预分类采样:根据角色类别进行采样,以平衡不同类别角色的训练数据。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EverybodyDance在身份对应(IC)和视觉保真度方面均优于现有技术水平。具体而言,在Identity Correspondence Evaluation基准测试中,EverybodyDance的IC指标显著优于其他基线方法,同时在视觉质量方面也取得了明显的提升。这些结果验证了EverybodyDance在多角色动画生成中的有效性。

🎯 应用场景

该研究成果可广泛应用于虚拟现实、游戏开发、电影制作等领域,实现更加逼真和自然的群体动画效果。例如,可以用于创建虚拟演唱会、多人舞蹈表演等场景,提升用户体验。此外,该技术还可以应用于机器人群体控制,实现多个机器人之间的协同运动。

📄 摘要(原文)

Consistent pose-driven character animation has achieved remarkable progress in single-character scenarios. However, extending these advances to multi-character settings is non-trivial, especially when position swap is involved. Beyond mere scaling, the core challenge lies in enforcing correct Identity Correspondence (IC) between characters in reference and generated frames. To address this, we introduce EverybodyDance, a systematic solution targeting IC correctness in multi-character animation. EverybodyDance is built around the Identity Matching Graph (IMG), which models characters in the generated and reference frames as two node sets in a weighted complete bipartite graph. Edge weights, computed via our proposed Mask-Query Attention (MQA), quantify the affinity between each pair of characters. Our key insight is to formalize IC correctness as a graph structural metric and to optimize it during training. We also propose a series of targeted strategies tailored for multi-character animation, including identity-embedded guidance, a multi-scale matching strategy, and pre-classified sampling, which work synergistically. Finally, to evaluate IC performance, we curate the Identity Correspondence Evaluation benchmark, dedicated to multi-character IC correctness. Extensive experiments demonstrate that EverybodyDance substantially outperforms state-of-the-art baselines in both IC and visual fidelity.