AnyTop: Character Animation Diffusion with Any Topology

📄 arXiv: 2502.17327v2 📥 PDF

作者: Inbar Gat, Sigal Raab, Guy Tevet, Yuval Reshef, Amit H. Bermano, Daniel Cohen-Or

分类: cs.GR, cs.AI, cs.CV

发布日期: 2025-02-24 (更新: 2025-06-05)

备注: SIGGRAPH 2025. Video: https://www.youtube.com/watch?v=NWOdkM5hAbE, Project page: https://anytop2025.github.io/Anytop-page, Code: https://github.com/Anytop2025/Anytop

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

AnyTop:提出一种支持任意拓扑结构的角色动画扩散模型

🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation)

关键词: 角色动画生成 扩散模型 骨骼拓扑 Transformer网络 语义对应 运动合成 人工智能

📋 核心要点

  1. 现有角色动画生成方法难以处理具有不同拓扑结构的骨骼,缺乏足够的多样性数据是主要瓶颈。
  2. AnyTop通过Transformer网络融合拓扑信息,并利用文本描述学习跨骨骼的关节语义对应关系。
  3. 实验证明AnyTop具有良好的泛化能力,即使在少量样本下也能为未见过的骨骼生成自然运动。

📝 摘要(中文)

本文提出AnyTop,一种扩散模型,旨在仅使用骨骼结构作为输入,为具有不同运动动力学的各种角色生成运动。由于缺乏多样化的数据集和数据的不规则性,为任意骨骼生成运动是一个长期存在的挑战,并且在很大程度上未被探索。AnyTop采用基于Transformer的去噪网络,该网络专为任意骨骼学习而定制,并将拓扑信息集成到传统的注意力机制中。此外,通过将文本关节描述融入潜在特征表示中,AnyTop学习了不同骨骼之间关节的语义对应关系。评估表明,即使每个拓扑只有三个训练样本,AnyTop也能很好地泛化,并且可以为未见过的骨骼生成运动。此外,该模型的潜在空间信息量很大,可以实现关节对应、时间分割和运动编辑等下游任务。

🔬 方法详解

问题定义:现有角色动画生成方法在处理具有任意拓扑结构的骨骼时面临挑战。主要痛点在于缺乏足够多样化的训练数据,以及不同骨骼结构之间的差异性导致模型难以泛化。传统方法通常针对特定骨骼结构设计,无法适应新的骨骼拓扑。

核心思路:AnyTop的核心思路是利用扩散模型强大的生成能力,结合Transformer网络学习骨骼的拓扑结构信息,并通过文本描述建立不同骨骼关节之间的语义对应关系。这样,模型可以理解不同骨骼之间的相似性和差异性,从而生成符合骨骼结构的自然运动。

技术框架:AnyTop采用扩散模型的框架,包含前向扩散过程和反向去噪过程。前向过程逐步向运动数据添加噪声,反向过程则通过Transformer网络逐步去除噪声,最终生成运动。模型的输入是骨骼结构和文本关节描述,输出是生成的运动序列。整体流程包括:1)骨骼结构和文本描述编码;2)扩散过程添加噪声;3)Transformer网络去噪;4)生成运动序列。

关键创新:AnyTop的关键创新在于:1)将拓扑信息融入Transformer的注意力机制中,使模型能够更好地理解骨骼结构;2)利用文本关节描述学习不同骨骼之间的语义对应关系,提高了模型的泛化能力。传统方法通常只关注骨骼的几何结构,而忽略了拓扑信息和语义信息。

关键设计:AnyTop使用Transformer作为去噪网络,并修改了注意力机制以适应骨骼拓扑结构。具体来说,模型使用图神经网络对骨骼结构进行编码,并将编码后的拓扑信息融入注意力权重中。此外,模型使用对比学习损失来学习文本关节描述和骨骼关节之间的对应关系。具体的参数设置和损失函数细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,AnyTop在处理具有不同拓扑结构的骨骼时具有良好的泛化能力。即使每个拓扑只有三个训练样本,AnyTop也能生成自然的运动。此外,AnyTop的潜在空间具有很强的信息量,可以用于关节对应、时间分割和运动编辑等下游任务。具体的性能指标和对比基线未知。

🎯 应用场景

AnyTop具有广泛的应用前景,包括游戏开发、虚拟现实、电影制作和机器人控制等领域。它可以用于快速生成各种角色的动画,减少人工制作的成本和时间。此外,AnyTop还可以用于运动编辑和风格迁移等任务,为动画制作提供更多的灵活性和创造性。

📄 摘要(原文)

Generating motion for arbitrary skeletons is a longstanding challenge in computer graphics, remaining largely unexplored due to the scarcity of diverse datasets and the irregular nature of the data. In this work, we introduce AnyTop, a diffusion model that generates motions for diverse characters with distinct motion dynamics, using only their skeletal structure as input. Our work features a transformer-based denoising network, tailored for arbitrary skeleton learning, integrating topology information into the traditional attention mechanism. Additionally, by incorporating textual joint descriptions into the latent feature representation, AnyTop learns semantic correspondences between joints across diverse skeletons. Our evaluation demonstrates that AnyTop generalizes well, even with as few as three training examples per topology, and can produce motions for unseen skeletons as well. Furthermore, our model's latent space is highly informative, enabling downstream tasks such as joint correspondence, temporal segmentation and motion editing. Our webpage, https://anytop2025.github.io/Anytop-page, includes links to videos and code.