Semantic-Aware Motion Encoding for Topology-Agnostic Character Animation

📄 arXiv: 2605.27055v1 📥 PDF

作者: Zongye Zhang, Yuzhuo Cui, Qingjie Liu, Yunhong Wang

分类: cs.GR

发布日期: 2026-05-26

备注: Accepted by ICML 2026. 21 pages, 6 figures, 13 tables

🔗 代码/项目: GITHUB


💡 一句话要点

提出语义感知运动编码框架,解决拓扑结构差异下的角色动画泛化问题

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation)

关键词: 角色动画 运动捕捉 拓扑无关 语义调制 跨物种迁移

📋 核心要点

  1. 现有方法难以处理不同角色骨骼拓扑结构的差异,导致运动生成模型难以泛化到不同物种。
  2. 提出语义感知运动编码框架,通过语义调制机制对齐功能性关节,解耦运动与拓扑结构。
  3. 实验表明,该框架能够高保真重建运动,支持文本到运动任务,并实现零样本跨物种动作重定向。

📝 摘要(中文)

本文提出了一种语义感知的、与拓扑结构无关的框架,用于学习不同物种共享的统一潜在空间,从而解决跨不同角色泛化运动表示的难题。由于数据集和物种之间骨骼结构的拓扑差异显著,这阻碍了可扩展生成模型的发展。与依赖固定层级结构或刚性填充策略的方法不同,我们的方法利用语义调制机制来对齐功能性关节对应关系,从而将运动与拓扑结构解耦。这种设计使得能够从大规模、未对齐的原始BVH数据中构建连续的、生成友好的运动空间。在人类和动物数据集上的实验表明,我们的框架实现了高保真度的重建,并支持下游的文本到运动任务。值得注意的是,该模型能够实现零样本跨物种的动作重定向,而无需配对数据。

🔬 方法详解

问题定义:现有角色动画方法难以处理不同物种或角色之间骨骼拓扑结构的巨大差异。传统方法依赖于固定的骨骼层级结构或采用填充策略来对齐不同骨骼,但这些方法无法有效捕捉不同拓扑结构下的运动共性,限制了运动生成模型的可扩展性和泛化能力。因此,如何学习一种与拓扑结构无关的、通用的运动表示是本文要解决的关键问题。

核心思路:本文的核心思路是通过语义调制机制来对齐不同角色的功能性关节对应关系,从而将运动与拓扑结构解耦。具体来说,模型学习一个语义空间,将具有相似功能的关节映射到该空间的相近位置。然后,利用这些语义信息来调制运动编码,使得模型能够学习到与拓扑结构无关的运动表示。这样,即使不同角色的骨骼结构不同,模型也能理解它们执行相似动作的内在联系。

技术框架:该框架主要包含以下几个模块:1) 语义编码器:用于学习关节的语义表示,将具有相似功能的关节映射到相近的语义空间位置。2) 运动编码器:用于编码原始的运动数据,生成运动的潜在表示。3) 语义调制模块:利用语义编码器输出的语义信息来调制运动编码器的输出,从而生成与拓扑结构无关的运动表示。4) 运动解码器:用于从调制后的运动表示中重建原始的运动数据。整个框架采用自编码器的结构,通过最小化重建误差来训练模型。

关键创新:最重要的技术创新点在于语义调制机制,它能够有效地将运动与拓扑结构解耦。与现有方法相比,该方法不需要预先定义固定的骨骼层级结构或采用刚性的填充策略,而是通过学习关节的语义表示来自动对齐不同角色的功能性关节。这种方法更加灵活,能够更好地处理不同拓扑结构下的运动泛化问题。

关键设计:在语义编码器中,使用了图神经网络来捕捉关节之间的关系。损失函数包括重建损失和语义一致性损失。重建损失用于保证运动解码器能够准确地重建原始运动数据。语义一致性损失用于约束语义编码器,使得具有相似功能的关节在语义空间中的距离尽可能小。在训练过程中,采用了对抗训练的方法来提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该框架在人类和动物数据集上均取得了良好的性能。与现有方法相比,该方法能够实现更高保真度的运动重建,并支持文本到运动的生成任务。特别值得一提的是,该模型能够实现零样本跨物种的动作重定向,而无需配对数据,这充分证明了该方法的泛化能力。

🎯 应用场景

该研究成果可广泛应用于角色动画制作、虚拟现实、游戏开发等领域。通过该方法,可以实现不同物种或角色之间的动作迁移和共享,降低动画制作的成本和难度。此外,该技术还可以用于开发更智能的机器人控制系统,使得机器人能够更好地理解和模仿人类的动作。

📄 摘要(原文)

Generalizing motion representation across diverse characters remains challenging due to significant topological variations in skeletal structures across datasets and species, which hinder the development of scalable generative models. To bridge this gap, we propose a Semantic-Aware Topology-Agnostic framework that learns a unified latent manifold shared by disparate species. Unlike methods relying on fixed hierarchies or rigid padding strategies, our approach leverages a semantic modulation mechanism to align functional joint correspondences, thereby decoupling motion from topology. This design enables the construction of a continuous, generative-friendly motion space from large-scale, unaligned raw BVH data. Experiments on human and animal datasets demonstrate that our framework achieves high-fidelity reconstruction and supports downstream text-to-motion tasks. Notably, the model enables zero-shot cross-species retargeting without paired data. Code and demos are available at: https://github.com/zzysteve/SATA