Topology-Agnostic Animal Motion Generation from Text Prompt

📄 arXiv: 2512.10352v1 📥 PDF

作者: Keyi Chen, Mingze Sun, Zhenyu Liu, Zhangquan Chen, Ruqi Huang

分类: cs.CV

发布日期: 2025-12-11

备注: 10 pages, 7 figures.Conference submission


💡 一句话要点

提出OmniZoo数据集和拓扑无关的动物运动生成框架,解决异构骨骼和文本驱动的动物运动生成问题。

🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱七:动作重定向 (Motion Retargeting) 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 动物运动生成 拓扑无关 文本驱动 骨骼嵌入 自回归模型

📋 核心要点

  1. 现有运动生成方法依赖固定骨骼模板,难以处理不同拓扑结构的动物运动生成任务。
  2. 论文提出拓扑感知的骨骼嵌入模块,将骨骼的几何和结构信息编码到统一空间,实现与文本语义的融合。
  3. 实验结果表明,该方法能够生成逼真的、与文本描述一致的动物运动,并支持跨物种的风格迁移。

📝 摘要(中文)

本文提出了一种拓扑无关的动物运动生成方法,旨在解决现有方法依赖固定骨骼模板,无法泛化到不同或扰动拓扑结构的问题。为此,作者构建了大规模动物运动数据集OmniZoo,包含140个物种和32,979个序列,并进行了多模态标注。基于OmniZoo,作者提出了一个通用的自回归运动生成框架,能够为任意骨骼拓扑生成文本驱动的运动。该模型的关键在于拓扑感知骨骼嵌入模块,它将任何骨骼的几何和结构属性编码到共享的token空间中,从而实现与文本语义的无缝融合。该方法能够生成时间连贯、物理合理且语义对齐的运动,并进一步实现跨物种的运动风格迁移。

🔬 方法详解

问题定义:现有动物运动生成方法主要依赖于预定义的、固定的骨骼结构,这限制了它们在处理具有不同骨骼拓扑结构的动物时的泛化能力。此外,缺乏大规模、多样化的动物运动数据集以及能够同时建模任意骨骼拓扑和文本条件的统一生成框架,是该领域面临的主要挑战。

核心思路:论文的核心思路是构建一个能够处理任意骨骼拓扑结构的运动生成框架。通过学习一个拓扑感知的骨骼嵌入,将不同骨骼的几何和结构信息映射到一个共享的特征空间,从而实现跨物种的运动生成和风格迁移。这种方法避免了对特定骨骼结构的依赖,提高了模型的泛化能力。

技术框架:该方法采用自回归的运动生成框架,主要包含以下几个模块:1) 拓扑感知骨骼嵌入模块:负责将输入的骨骼结构编码成一个特征向量,该向量包含了骨骼的几何和结构信息。2) 文本编码器:负责将输入的文本描述编码成一个特征向量,该向量包含了文本的语义信息。3) 运动生成器:基于骨骼嵌入和文本嵌入,自回归地生成运动序列。

关键创新:该方法最重要的创新点在于拓扑感知骨骼嵌入模块的设计。该模块能够将任意骨骼结构的几何和结构信息编码到一个统一的特征空间,从而使得模型能够处理不同拓扑结构的动物运动生成任务。与现有方法相比,该方法不再依赖于预定义的骨骼结构,具有更强的泛化能力。

关键设计:拓扑感知骨骼嵌入模块可能使用了图神经网络(GNN)来编码骨骼的结构信息,并结合几何特征(如骨骼长度、关节角度等)进行嵌入。运动生成器可能采用了Transformer结构,利用自注意力机制来建模运动序列的时序依赖关系。损失函数可能包括运动逼真度损失、文本对齐损失以及对抗损失等,以保证生成运动的质量和语义一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文构建了包含140个物种和32,979个序列的大规模动物运动数据集OmniZoo。提出的拓扑无关运动生成框架能够生成时间连贯、物理合理且语义对齐的运动,并支持跨物种的运动风格迁移。具体性能数据未知,但从定性结果来看,生成的运动具有较高的逼真度和语义一致性。

🎯 应用场景

该研究成果可广泛应用于计算机动画、游戏开发、虚拟现实、机器人控制等领域。例如,可以用于生成各种动物的逼真运动,为游戏角色赋予更自然的动作,或者用于训练机器人在复杂环境中的运动技能。此外,该方法还可以用于跨物种的运动风格迁移,创造出更具创意和表现力的动画效果。

📄 摘要(原文)

Motion generation is fundamental to computer animation and widely used across entertainment, robotics, and virtual environments. While recent methods achieve impressive results, most rely on fixed skeletal templates, which prevent them from generalizing to skeletons with different or perturbed topologies. We address the core limitation of current motion generation methods - the combined lack of large-scale heterogeneous animal motion data and unified generative frameworks capable of jointly modeling arbitrary skeletal topologies and textual conditions. To this end, we introduce OmniZoo, a large-scale animal motion dataset spanning 140 species and 32,979 sequences, enriched with multimodal annotations. Building on OmniZoo, we propose a generalized autoregressive motion generation framework capable of producing text-driven motions for arbitrary skeletal topologies. Central to our model is a Topology-aware Skeleton Embedding Module that encodes geometric and structural properties of any skeleton into a shared token space, enabling seamless fusion with textual semantics. Given a text prompt and a target skeleton, our method generates temporally coherent, physically plausible, and semantically aligned motions, and further enables cross-species motion style transfer.