MultiAnimate: Pose-Guided Image Animation Made Extensible

📄 arXiv: 2602.21581v1 📥 PDF

作者: Yingcheng Hu, Haowen Gong, Chuanguang Yang, Zhulin An, Yongjun Xu, Songhua Liu

分类: cs.CV

发布日期: 2026-02-25

备注: Project page at https://hyc001.github.io/MultiAnimate/


💡 一句话要点

提出MultiAnimate,解决多角色姿态引导图像动画中的身份混淆和遮挡问题。

🎯 匹配领域: 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 姿态引导动画 多角色动画 扩散模型 Transformer 身份识别 图像生成 视频生成 可扩展性

📋 核心要点

  1. 现有姿态引导图像动画方法在多角色场景中存在身份混淆和遮挡问题,限制了应用范围。
  2. MultiAnimate通过引入身份分配器和身份适配器,有效捕获角色位置信息和角色间空间关系。
  3. 实验表明,该模型在多角色动画中超越现有扩散模型,且仅在双角色数据集上训练即可泛化。

📝 摘要(中文)

姿态引导的人体图像动画旨在合成由一系列姿势驱动的参考角色的逼真视频。虽然基于扩散的方法已经取得了显著的成功,但大多数现有方法仅限于单角色动画。我们观察到,简单地将这些方法扩展到多角色场景通常会导致身份混淆和角色之间不合理的遮挡。为了解决这些挑战,在本文中,我们提出了一个可扩展的多角色图像动画框架,该框架建立在用于视频生成的现代扩散Transformer(DiT)之上。该框架的核心是引入了两个新的组件——身份分配器和身份适配器——它们协同捕获每个人的位置线索和人与人之间的空间关系。这种由掩码驱动的方案,以及可扩展的训练策略,不仅增强了灵活性,而且能够推广到比训练期间看到的更多角色的场景。值得注意的是,我们的模型仅在双角色数据集上训练,就可以推广到多角色动画,同时保持与单角色情况的兼容性。大量的实验表明,我们的方法在多角色图像动画中实现了最先进的性能,超过了现有的基于扩散的基线。

🔬 方法详解

问题定义:现有的姿态引导图像动画方法主要针对单角色场景,当直接应用于多角色场景时,会面临身份混淆的问题,即模型无法区分不同角色,导致生成的人物图像身份错乱。此外,角色之间的遮挡关系也难以处理,生成的视频中可能出现不合理的遮挡情况,影响真实感。

核心思路:MultiAnimate的核心思路是显式地建模每个角色的身份信息和角色之间的空间关系。通过引入身份分配器和身份适配器,模型可以学习到每个角色的位置线索,并理解角色之间的相对位置和遮挡关系。这种显式建模的方式有助于解决身份混淆和遮挡问题,从而生成更逼真的多角色动画。

技术框架:MultiAnimate基于扩散Transformer(DiT)构建,整体框架包含以下主要模块:1) 姿态编码器:提取输入姿态序列的特征。2) 身份分配器:根据输入图像和姿态信息,为每个角色分配一个唯一的身份标识。3) 身份适配器:将身份标识与姿态特征融合,生成每个角色的个性化特征表示。4) 扩散Transformer:基于融合后的特征,生成多角色动画视频。

关键创新:MultiAnimate的关键创新在于身份分配器和身份适配器的设计。身份分配器通过学习角色位置信息,为每个角色分配唯一的身份标识,从而避免身份混淆。身份适配器将身份标识与姿态特征融合,使得模型能够生成具有个性化特征的角色动画。此外,该框架采用可扩展的训练策略,使得模型能够泛化到比训练数据中更多的角色数量。

关键设计:身份分配器采用基于掩码的方案,利用角色分割掩码来区分不同角色。身份适配器采用注意力机制,将身份标识与姿态特征进行融合。训练过程中,采用对抗损失和重建损失来提高生成视频的真实感和一致性。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

MultiAnimate在多角色图像动画任务上取得了显著的性能提升,超越了现有的基于扩散的基线方法。实验结果表明,该模型能够生成具有逼真身份和合理遮挡关系的多角色动画视频。值得注意的是,该模型仅在双角色数据集上训练,就可以泛化到多角色场景,展示了其良好的泛化能力。具体的性能指标和对比结果在论文中有详细的呈现。

🎯 应用场景

MultiAnimate在游戏开发、电影制作、虚拟现实等领域具有广泛的应用前景。例如,可以用于生成游戏中角色的动画,制作电影中的特效场景,或者创建虚拟现实中的互动体验。该研究的实际价值在于提高了多角色动画的生成质量和效率,为相关领域的应用提供了新的技术手段。未来,可以进一步探索MultiAnimate在更多场景下的应用,例如生成具有复杂交互行为的多角色动画。

📄 摘要(原文)

Pose-guided human image animation aims to synthesize realistic videos of a reference character driven by a sequence of poses. While diffusion-based methods have achieved remarkable success, most existing approaches are limited to single-character animation. We observe that naively extending these methods to multi-character scenarios often leads to identity confusion and implausible occlusions between characters. To address these challenges, in this paper, we propose an extensible multi-character image animation framework built upon modern Diffusion Transformers (DiTs) for video generation. At its core, our framework introduces two novel components-Identifier Assigner and Identifier Adapter - which collaboratively capture per-person positional cues and inter-person spatial relationships. This mask-driven scheme, along with a scalable training strategy, not only enhances flexibility but also enables generalization to scenarios with more characters than those seen during training. Remarkably, trained on only a two-character dataset, our model generalizes to multi-character animation while maintaining compatibility with single-character cases. Extensive experiments demonstrate that our approach achieves state-of-the-art performance in multi-character image animation, surpassing existing diffusion-based baselines.