AnimateAnyMesh++: A Flexible 4D Foundation Model for High-Fidelity Text-Driven Mesh Animation

作者: Zijie Wu, Chaohui Yu, Fan Wang, Xiang Bai

分类: cs.CV

发布日期: 2026-04-29

备注: 14 pages, TPAMI submission, code url: https://github.com/JarrentWu1031/AnimateAnyMesh-pp

💡 一句话要点

AnimateAnyMesh++：用于高保真文本驱动网格动画的灵活4D基础模型

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 文本驱动动画 4D内容生成 3D网格动画 VAE 校正流 数据集扩展 拓扑感知注意力

📋 核心要点

高质量动画3D模型生成面临时空分布建模复杂和4D训练数据稀缺的挑战。
AnimateAnyMesh++通过扩展数据集、改进VAE架构和生成器，实现任意3D网格的文本驱动动画。
实验表明，AnimateAnyMesh++在生成质量和效率上超越现有方法，并能生成更长的动画序列。

📝 摘要（中文）

本文提出AnimateAnyMesh++，一个用于任意3D网格文本驱动动画的前馈框架，在数据、架构和生成能力方面进行了重大升级。首先，通过从Objaverse-XL挖掘动态内容，扩展了DyMesh-XL数据集，将唯一身份的数量从6万增加到30万，并大幅扩展了类别和运动多样性。其次，重新设计了DyMeshVAE-Flex，采用幂律拓扑感知注意力和顶点法线增强特征，显著提高了轨迹重建、局部几何保持能力，并减轻了轨迹粘连伪影。第三，对DyMeshVAE-Flex和校正流（RF）生成器进行了架构更改，以支持变长序列训练和生成，从而在保持重建保真度的同时实现更长的动画。大量实验表明，AnimateAnyMesh++可以在几秒钟内生成语义准确且时间上连贯的网格动画，在质量和效率方面超越了以往的方法。扩大的DyMesh-XL、升级的DyMeshVAE-Flex和变长RF共同为基准测试和实际网格带来了持续的收益。代码、模型和扩展的DyMesh-XL将在论文接收后发布，以促进4D内容创建的研究。

🔬 方法详解

问题定义：现有的4D内容生成方法难以生成高质量的动画3D模型，主要原因是时空分布建模的复杂性以及缺乏足够的4D训练数据。此外，现有方法在处理任意3D网格的文本驱动动画时，往往存在轨迹重建不准确、局部几何细节丢失以及轨迹粘连等问题。

核心思路：AnimateAnyMesh++的核心思路是通过扩大训练数据集、改进VAE架构和生成器，从而提升模型生成高质量、长时间动画的能力。具体来说，通过从Objaverse-XL中挖掘动态内容来扩充数据集，并设计新的VAE架构来更好地捕捉网格的拓扑结构和几何特征。同时，对生成器进行改进，使其能够支持变长序列的生成。

技术框架：AnimateAnyMesh++的整体框架包括三个主要部分：扩大的DyMesh-XL数据集、升级的DyMeshVAE-Flex和变长校正流（RF）生成器。首先，使用DyMesh-XL数据集训练DyMeshVAE-Flex，该VAE负责将3D网格动画编码为潜在空间中的表示。然后，使用变长RF生成器从潜在空间中生成新的动画序列。最后，将生成的潜在表示解码为3D网格动画。

关键创新：AnimateAnyMesh++的关键创新点在于以下几个方面：1) 大幅扩展了DyMesh-XL数据集，增加了数据量和多样性；2) 提出了DyMeshVAE-Flex，该VAE采用了幂律拓扑感知注意力和顶点法线增强特征，从而更好地捕捉网格的拓扑结构和几何特征；3) 对RF生成器进行了改进，使其能够支持变长序列的生成。

关键设计：DyMeshVAE-Flex的关键设计包括：1) 幂律拓扑感知注意力机制，该机制根据网格的拓扑结构动态调整注意力权重；2) 顶点法线增强特征，该特征将顶点法线信息融入到VAE的编码过程中，从而更好地保留局部几何细节；3) 变长序列训练，通过调整损失函数和网络结构，使模型能够处理不同长度的动画序列。

🖼️ 关键图片

📊 实验亮点

AnimateAnyMesh++在多个基准测试中取得了显著的性能提升。与现有方法相比，AnimateAnyMesh++能够生成更高质量、更长时间的动画序列，并且在轨迹重建、局部几何保持和轨迹粘连等方面都有明显的改善。实验结果表明，AnimateAnyMesh++在生成速度和质量方面都优于现有方法，并且能够处理各种复杂的3D网格。

🎯 应用场景

AnimateAnyMesh++在游戏开发、电影制作、虚拟现实和增强现实等领域具有广泛的应用前景。它可以用于快速生成各种动画3D模型，例如角色动画、场景动画和特效动画。此外，它还可以用于创建交互式3D内容，例如虚拟化身和3D游戏角色。该研究的成果有助于降低3D内容创作的门槛，并推动4D内容生成技术的发展。

📄 摘要（原文）

Recent advances in 4D content generation have attracted increasing attention, yet creating high-quality animated 3D models remains challenging due to the complexity of modeling spatio-temporal distributions and the scarcity of 4D training data. We present AnimateAnyMesh++, a feed-forward framework for text-driven animation of arbitrary 3D meshes with substantial upgrades in data, architecture, and generative capability. First, we expand the DyMesh-XL dataset by mining dynamic content from Objaverse-XL, increasing the number of unique identities from 60K to 300K and substantially broadening category and motion diversity. Second, we redesign DyMeshVAE-Flex with power-law topology-aware attention and vertex-normal enhanced features, which significantly improves trajectory reconstruction, local geometry preservation, and mitigates trajectory-sticking artifacts. Third, we introduce architectural changes to both DyMeshVAE-Flex and the rectified-flow (RF) generator to support variable-length sequence training and generation, enabling longer animations while preserving reconstruction fidelity. Extensive experiments demonstrate that AnimateAnyMesh++ generates semantically accurate and temporally coherent mesh animations within seconds, surpassing prior approaches in quality and efficiency. The enlarged DyMesh-XL, the upgraded DyMeshVAE-Flex, and variable-length RF together deliver consistent gains across benchmarks and in-the-wild meshes. We will release code, models, and the expanded DyMesh-XL upon acceptance of this manuscript to facilitate research in 4D content creation.

AnimateAnyMesh++: A Flexible 4D Foundation Model for High-Fidelity Text-Driven Mesh Animation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理