AnimateAnyMesh++: A Flexible 4D Foundation Model for High-Fidelity Text-Driven Mesh Animation

📄 arXiv: 2604.26917v1 📥 PDF

作者: Zijie Wu, Chaohui Yu, Fan Wang, Xiang Bai

分类: cs.CV

发布日期: 2026-04-29

备注: 14 pages, TPAMI submission, code url: https://github.com/JarrentWu1031/AnimateAnyMesh-pp


💡 一句话要点

AnimateAnyMesh++:用于高保真文本驱动网格动画的灵活4D基础模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 文本驱动动画 4D内容生成 3D网格动画 VAE 校正流 数据集扩展 拓扑感知注意力

📋 核心要点

  1. 高质量动画3D模型生成面临时空分布建模复杂和4D训练数据稀缺的挑战。
  2. AnimateAnyMesh++通过扩展数据集、改进VAE架构和生成器,实现任意3D网格的文本驱动动画。
  3. 实验表明,AnimateAnyMesh++在生成质量和效率上超越现有方法,并能生成更长的动画序列。

📝 摘要(中文)

本文提出AnimateAnyMesh++,一个用于任意3D网格文本驱动动画的前馈框架,在数据、架构和生成能力方面进行了重大升级。首先,通过从Objaverse-XL挖掘动态内容,扩展了DyMesh-XL数据集,将唯一身份的数量从6万增加到30万,并大幅扩展了类别和运动多样性。其次,重新设计了DyMeshVAE-Flex,采用幂律拓扑感知注意力和顶点法线增强特征,显著提高了轨迹重建、局部几何保持能力,并减轻了轨迹粘连伪影。第三,对DyMeshVAE-Flex和校正流(RF)生成器进行了架构更改,以支持变长序列训练和生成,从而在保持重建保真度的同时实现更长的动画。大量实验表明,AnimateAnyMesh++可以在几秒钟内生成语义准确且时间上连贯的网格动画,在质量和效率方面超越了以往的方法。扩大的DyMesh-XL、升级的DyMeshVAE-Flex和变长RF共同为基准测试和实际网格带来了持续的收益。代码、模型和扩展的DyMesh-XL将在论文接收后发布,以促进4D内容创建的研究。

🔬 方法详解

问题定义:现有的4D内容生成方法难以生成高质量的动画3D模型,主要原因是时空分布建模的复杂性以及缺乏足够的4D训练数据。此外,现有方法在处理任意3D网格的文本驱动动画时,往往存在轨迹重建不准确、局部几何细节丢失以及轨迹粘连等问题。

核心思路:AnimateAnyMesh++的核心思路是通过扩大训练数据集、改进VAE架构和生成器,从而提升模型生成高质量、长时间动画的能力。具体来说,通过从Objaverse-XL中挖掘动态内容来扩充数据集,并设计新的VAE架构来更好地捕捉网格的拓扑结构和几何特征。同时,对生成器进行改进,使其能够支持变长序列的生成。

技术框架:AnimateAnyMesh++的整体框架包括三个主要部分:扩大的DyMesh-XL数据集、升级的DyMeshVAE-Flex和变长校正流(RF)生成器。首先,使用DyMesh-XL数据集训练DyMeshVAE-Flex,该VAE负责将3D网格动画编码为潜在空间中的表示。然后,使用变长RF生成器从潜在空间中生成新的动画序列。最后,将生成的潜在表示解码为3D网格动画。

关键创新:AnimateAnyMesh++的关键创新点在于以下几个方面:1) 大幅扩展了DyMesh-XL数据集,增加了数据量和多样性;2) 提出了DyMeshVAE-Flex,该VAE采用了幂律拓扑感知注意力和顶点法线增强特征,从而更好地捕捉网格的拓扑结构和几何特征;3) 对RF生成器进行了改进,使其能够支持变长序列的生成。

关键设计:DyMeshVAE-Flex的关键设计包括:1) 幂律拓扑感知注意力机制,该机制根据网格的拓扑结构动态调整注意力权重;2) 顶点法线增强特征,该特征将顶点法线信息融入到VAE的编码过程中,从而更好地保留局部几何细节;3) 变长序列训练,通过调整损失函数和网络结构,使模型能够处理不同长度的动画序列。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AnimateAnyMesh++在多个基准测试中取得了显著的性能提升。与现有方法相比,AnimateAnyMesh++能够生成更高质量、更长时间的动画序列,并且在轨迹重建、局部几何保持和轨迹粘连等方面都有明显的改善。实验结果表明,AnimateAnyMesh++在生成速度和质量方面都优于现有方法,并且能够处理各种复杂的3D网格。

🎯 应用场景

AnimateAnyMesh++在游戏开发、电影制作、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于快速生成各种动画3D模型,例如角色动画、场景动画和特效动画。此外,它还可以用于创建交互式3D内容,例如虚拟化身和3D游戏角色。该研究的成果有助于降低3D内容创作的门槛,并推动4D内容生成技术的发展。

📄 摘要(原文)

Recent advances in 4D content generation have attracted increasing attention, yet creating high-quality animated 3D models remains challenging due to the complexity of modeling spatio-temporal distributions and the scarcity of 4D training data. We present AnimateAnyMesh++, a feed-forward framework for text-driven animation of arbitrary 3D meshes with substantial upgrades in data, architecture, and generative capability. First, we expand the DyMesh-XL dataset by mining dynamic content from Objaverse-XL, increasing the number of unique identities from 60K to 300K and substantially broadening category and motion diversity. Second, we redesign DyMeshVAE-Flex with power-law topology-aware attention and vertex-normal enhanced features, which significantly improves trajectory reconstruction, local geometry preservation, and mitigates trajectory-sticking artifacts. Third, we introduce architectural changes to both DyMeshVAE-Flex and the rectified-flow (RF) generator to support variable-length sequence training and generation, enabling longer animations while preserving reconstruction fidelity. Extensive experiments demonstrate that AnimateAnyMesh++ generates semantically accurate and temporally coherent mesh animations within seconds, surpassing prior approaches in quality and efficiency. The enlarged DyMesh-XL, the upgraded DyMeshVAE-Flex, and variable-length RF together deliver consistent gains across benchmarks and in-the-wild meshes. We will release code, models, and the expanded DyMesh-XL upon acceptance of this manuscript to facilitate research in 4D content creation.