ARMO: Autoregressive Rigging for Multi-Category Objects

📄 arXiv: 2503.20663v1 📥 PDF

作者: Mingze Sun, Shiwei Mao, Keyi Chen, Yurun Chen, Shunlin Lu, Jingbo Wang, Junting Dong, Ruqi Huang

分类: cs.CV

发布日期: 2025-03-26


💡 一句话要点

ARMO:用于多类别物体的自回归骨骼绑定框架,提升骨骼预测精度。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 骨骼绑定 自回归模型 3D生成 动画 数据集 潜在扩散模型 计算机图形学

📋 核心要点

  1. 现有3D生成模型主要关注静态形状,忽略了动态物体的骨骼绑定需求,缺乏对多样化姿势和类别的支持。
  2. ARMO利用自回归模型统一预测关节位置和连接关系,将骨骼结构视为完整图并离散化为token,克服了回归方法的误差累积问题。
  3. 在OmniRig数据集上,ARMO在骨骼预测方面取得了SOTA性能,展示了在不同物体类别上的优越泛化能力。

📝 摘要(中文)

近年来,大规模生成模型显著提升了3D形状生成的质量和多样性。然而,现有方法主要关注静态3D模型的生成,忽略了类人、动物、昆虫等形状的潜在动态特性。为解决这一问题,本文关注骨骼绑定这一动画领域的基础任务,即为3D模型建立骨骼结构和蒙皮。本文提出了首个大规模骨骼绑定数据集OmniRig,包含79499个具有详细骨骼和蒙皮信息的网格模型。与依赖预定义标准姿势(如A-pose、T-pose)的传统基准不同,OmniRig数据集涵盖了多样化的形状类别、风格和姿势。基于此数据集,本文提出了ARMO,一种新颖的骨骼绑定框架,利用自回归模型以统一的方式预测关节位置和连接关系。通过将骨骼结构视为完整图并将其离散化为token,使用自编码器对关节进行编码以获得潜在嵌入,并使用自回归模型预测token。使用网格条件潜在扩散模型来预测用于条件骨骼生成的潜在嵌入。该方法克服了基于回归的方法的局限性,后者通常遭受误差累积和次优连接估计的困扰。在OmniRig数据集上的大量实验表明,该方法在骨骼预测方面实现了最先进的性能,并展示了在不同对象类别中的改进泛化能力。代码和数据集将在接受后公开发布以供学术使用。

🔬 方法详解

问题定义:论文旨在解决3D模型骨骼绑定问题,即如何自动地为3D模型生成合理的骨骼结构和蒙皮信息。现有方法,特别是基于回归的方法,容易出现误差累积,导致骨骼连接关系估计不准确,并且泛化能力有限,难以处理多样化的物体类别和姿势。

核心思路:论文的核心思路是将骨骼绑定问题转化为一个序列生成问题,利用自回归模型预测骨骼的关节位置和连接关系。通过将骨骼结构表示为完整图,并将其离散化为token序列,可以利用自回归模型的优势,避免误差累积,并更好地捕捉骨骼之间的依赖关系。同时,使用网格条件潜在扩散模型来指导骨骼生成,使其与输入的3D模型相匹配。

技术框架:ARMO框架主要包含以下几个模块:1) 数据编码器:将输入的3D网格模型编码为潜在嵌入。2) 骨骼结构离散化:将骨骼结构表示为完整图,并将其离散化为token序列。3) 自回归骨骼生成器:利用自回归模型预测骨骼的关节位置和连接关系。4) 网格条件潜在扩散模型:用于预测用于条件骨骼生成的潜在嵌入,指导骨骼生成与输入网格匹配。

关键创新:ARMO的关键创新在于:1) 自回归骨骼绑定:首次将自回归模型应用于骨骼绑定问题,避免了回归方法的误差累积。2) 统一的关节和连接预测:通过将骨骼结构表示为完整图并离散化为token,实现了关节位置和连接关系的统一预测。3) 大规模多样化数据集OmniRig:构建了一个包含大量不同类别和姿势的3D模型及其骨骼绑定信息的数据集,为骨骼绑定研究提供了新的基准。

关键设计:论文中,骨骼结构被表示为完整图,每个关节对应图中的一个节点,关节之间的连接关系对应图中的边。使用自编码器将关节位置编码为潜在嵌入。自回归模型使用Transformer架构,用于预测下一个token,即下一个关节的位置和连接关系。网格条件潜在扩散模型使用U-Net架构,用于生成与输入网格匹配的骨骼结构。损失函数包括关节位置损失、连接损失和扩散模型的损失。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ARMO在OmniRig数据集上取得了显著的性能提升,在骨骼预测任务上达到了SOTA水平。相较于基线方法,ARMO在关节位置预测和连接关系预测方面均有显著提升,尤其是在处理具有复杂拓扑结构的3D模型时,ARMO的优势更加明显。实验结果表明,ARMO具有良好的泛化能力,可以处理不同类别和姿势的3D模型。

🎯 应用场景

ARMO具有广泛的应用前景,可用于游戏开发、动画制作、虚拟现实、机器人控制等领域。它可以自动为3D模型生成合理的骨骼结构,从而简化动画制作流程,提高效率。此外,ARMO还可以用于生成具有特定运动模式的3D模型,例如用于机器人控制的运动规划。

📄 摘要(原文)

Recent advancements in large-scale generative models have significantly improved the quality and diversity of 3D shape generation. However, most existing methods focus primarily on generating static 3D models, overlooking the potentially dynamic nature of certain shapes, such as humanoids, animals, and insects. To address this gap, we focus on rigging, a fundamental task in animation that establishes skeletal structures and skinning for 3D models. In this paper, we introduce OmniRig, the first large-scale rigging dataset, comprising 79,499 meshes with detailed skeleton and skinning information. Unlike traditional benchmarks that rely on predefined standard poses (e.g., A-pose, T-pose), our dataset embraces diverse shape categories, styles, and poses. Leveraging this rich dataset, we propose ARMO, a novel rigging framework that utilizes an autoregressive model to predict both joint positions and connectivity relationships in a unified manner. By treating the skeletal structure as a complete graph and discretizing it into tokens, we encode the joints using an auto-encoder to obtain a latent embedding and an autoregressive model to predict the tokens. A mesh-conditioned latent diffusion model is used to predict the latent embedding for conditional skeleton generation. Our method addresses the limitations of regression-based approaches, which often suffer from error accumulation and suboptimal connectivity estimation. Through extensive experiments on the OmniRig dataset, our approach achieves state-of-the-art performance in skeleton prediction, demonstrating improved generalization across diverse object categories. The code and dataset will be made public for academic use upon acceptance.