AnyCrowd: Instance-Isolated Identity-Pose Binding for Arbitrary Multi-Character Animation

📄 arXiv: 2603.15415v1 📥 PDF

作者: Zhenyu Xie, Ji Xia, Michael Kampffmeyer, Panwen Hu, Zehua Ma, Yujian Zheng, Jing Wang, Zheng Chong, Xujie Zhang, Xianhang Cheng, Xiaodan Liang, Hao Li

分类: cs.CV

发布日期: 2026-03-16


💡 一句话要点

AnyCrowd:提出实例隔离的身份-姿态绑定方法,用于任意多角色动画生成。

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 多角色动画 视频生成 扩散模型 Transformer 身份解耦 姿态绑定 实例分割

📋 核心要点

  1. 多角色动画面临身份纠缠问题,导致身份泄露和可控性下降,现有方法难以学习精确的身份-姿态对应关系。
  2. AnyCrowd通过实例隔离潜在表示(IILR)解耦角色身份,并利用三阶段解耦注意力(TSDA)绑定身份和姿态。
  3. AnyCrowd是一个基于扩散Transformer(DiT)的视频生成框架,能够处理任意数量的角色,并生成高质量的多角色动画。

📝 摘要(中文)

近年来,可控角色动画取得了快速进展,但多角色动画仍未得到充分探索。随着角色数量的增加,多角色参考编码更容易受到潜在身份纠缠的影响,导致身份泄露和可控性降低。此外,学习参考身份和驱动姿态序列之间精确且时空一致的对应关系变得越来越具有挑战性,通常会导致身份-姿态错误绑定和生成视频中的不一致性。为了解决这些挑战,我们提出了AnyCrowd,一个基于扩散Transformer(DiT)的视频生成框架,能够扩展到任意数量的角色。具体来说,我们首先引入实例隔离潜在表示(IILR),它在DiT处理之前独立编码角色实例,以防止潜在的身份纠缠。在此解耦表示的基础上,我们进一步提出了三阶段解耦注意力(TSDA),通过将自注意力分解为:(i)实例感知的前景注意力,(ii)以背景为中心的交互,以及(iii)全局前景-背景协调,将身份绑定到驱动姿势。此外,为了减轻重叠区域中的token歧义,TSDA中集成了一个自适应门控融合(AGF)模块,以预测身份感知权重,有效地将竞争token组融合为身份一致的表示。

🔬 方法详解

问题定义:论文旨在解决多角色动画生成中存在的身份纠缠和身份-姿态错绑问题。现有方法在处理大量角色时,容易出现身份泄露,并且难以建立精确的角色身份与驱动姿态之间的对应关系,导致生成视频质量下降和可控性降低。

核心思路:论文的核心思路是首先通过实例隔离潜在表示(IILR)将不同角色的身份信息解耦,避免身份纠缠。然后,利用三阶段解耦注意力(TSDA)将解耦后的身份信息与驱动姿态进行绑定,从而实现对多角色动画的精确控制。这种解耦和绑定的策略能够有效解决身份泄露和身份-姿态错绑问题。

技术框架:AnyCrowd框架基于扩散Transformer(DiT),主要包含以下几个模块:1) 实例隔离潜在表示(IILR):用于独立编码每个角色实例,生成解耦的身份表示。2) 三阶段解耦注意力(TSDA):用于将身份信息与驱动姿态进行绑定,包括实例感知的前景注意力、背景中心交互和全局前景-背景协调三个阶段。3) 自适应门控融合(AGF):用于处理重叠区域的token歧义,将竞争token组融合为身份一致的表示。整个框架通过DiT进行视频生成。

关键创新:论文的关键创新在于提出了实例隔离潜在表示(IILR)和三阶段解耦注意力(TSDA)。IILR通过独立编码角色实例,有效避免了身份纠缠。TSDA通过解耦自注意力机制,实现了身份与姿态的精确绑定。与现有方法相比,AnyCrowd能够更好地处理多角色动画中的身份问题,生成更高质量的视频。

关键设计:在TSDA中,实例感知的前景注意力关注每个角色的自身特征,背景中心交互关注角色之间的交互关系,全局前景-背景协调则关注整体场景的协调性。自适应门控融合(AGF)模块通过预测身份感知权重,动态地融合不同token组的信息,从而解决重叠区域的token歧义。具体的参数设置和网络结构细节在论文中有详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文提出的AnyCrowd框架在多角色动画生成任务上取得了显著的性能提升。通过实例隔离潜在表示(IILR)和三阶段解耦注意力(TSDA),有效解决了身份纠缠和身份-姿态错绑问题。具体的性能数据、对比基线和提升幅度等信息需要在论文中查找(未知)。

🎯 应用场景

AnyCrowd具有广泛的应用前景,例如电影制作、游戏开发、虚拟现实和增强现实等领域。它可以用于生成逼真的多角色动画,提高内容创作的效率和质量。此外,AnyCrowd还可以应用于虚拟化身、社交媒体和在线教育等领域,为用户提供更加个性化和沉浸式的体验。未来,该技术有望推动多角色动画的进一步发展。

📄 摘要(原文)

Controllable character animation has advanced rapidly in recent years, yet multi-character animation remains underexplored. As the number of characters grows, multi-character reference encoding becomes more susceptible to latent identity entanglement, resulting in identity bleeding and reduced controllability. Moreover, learning precise and spatio-temporally consistent correspondences between reference identities and driving pose sequences becomes increasingly challenging, often leading to identity-pose mis-binding and inconsistency in generated videos. To address these challenges, we propose AnyCrowd, a Diffusion Transformer (DiT)-based video generation framework capable of scaling to an arbitrary number of characters. Specifically, we first introduce an Instance-Isolated Latent Representation (IILR), which encodes character instances independently prior to DiT processing to prevent latent identity entanglement. Building on this disentangled representation, we further propose Tri-Stage Decoupled Attention (TSDA) to bind identities to driving poses by decomposing self-attention into: (i) instance-aware foreground attention, (ii) background-centric interaction, and (iii) global foreground-background coordination. Furthermore, to mitigate token ambiguity in overlapping regions, an Adaptive Gated Fusion (AGF) module is integrated within TSDA to predict identity-aware weights, effectively fusing competing token groups into identity-consistent representations...