SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM
作者: Chuanrui Zhang, Minghan Qin, Yuang Wang, Baifeng Xie, Hang Li, Ziwei Wang
分类: cs.CV, cs.GR, cs.RO
发布日期: 2026-03-24
💡 一句话要点
SIMART:通过MLLM将整体网格分解为可用于仿真的铰接资产
🎯 匹配领域: 支柱四:生成式动作 (Generative Motion) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 铰接物体生成 多模态大语言模型 零件级分解 运动学预测 稀疏3D VQ-VAE
📋 核心要点
- 现有铰接物体生成方法依赖多阶段流程,误差在解耦模块间累积,缺乏端到端优化。
- SIMART提出统一的MLLM框架,联合执行零件级分解和运动学预测,实现单阶段生成。
- SIMART引入稀疏3D VQ-VAE,显著减少token数量,提升复杂铰接物体的生成质量。
📝 摘要(中文)
高质量的铰接3D资产对于具身AI和物理仿真至关重要,但3D生成仍然侧重于静态网格,导致“可用于仿真”的交互式对象存在差距。目前大多数铰接对象创建方法依赖于多阶段流程,这些流程会在解耦模块之间累积误差。作为替代方案,统一的MLLM提供了一种单阶段路径,可以联合进行静态资产理解和可用于仿真的资产生成。然而,基于密集体素的3D token化会产生较长的3D token序列和较高的内存开销,从而限制了复杂铰接对象的可扩展性。为了解决这个问题,我们提出了SIMART,一个统一的MLLM框架,可以联合执行零件级分解和运动学预测。通过引入稀疏3D VQ-VAE,SIMART比密集体素token减少了70%的token数量,从而实现了高保真的多零件组装。SIMART在PartNet-Mobility和in-the-wild AIGC数据集上实现了最先进的性能,并支持基于物理的机器人仿真。
🔬 方法详解
问题定义:现有铰接物体生成方法通常采用多阶段流程,例如先进行零件分割,再进行运动学预测,最后进行组装。这些流程中的每个阶段都可能引入误差,并且误差会在后续阶段累积,导致最终生成的铰接物体质量不高。此外,现有方法难以处理复杂的铰接物体,因为其计算复杂度会随着零件数量的增加而迅速增长。
核心思路:SIMART的核心思路是利用多模态大语言模型(MLLM)的强大能力,将零件级分解和运动学预测整合到一个统一的框架中。通过将3D物体表示为token序列,并利用MLLM进行序列到序列的生成,SIMART可以实现端到端的铰接物体生成,从而避免了多阶段流程中的误差累积问题。此外,SIMART还引入了稀疏3D VQ-VAE,以减少token数量,从而提高计算效率和可扩展性。
技术框架:SIMART的整体框架包括以下几个主要模块:1) 稀疏3D VQ-VAE:用于将3D物体编码为离散的token序列。2) MLLM:用于学习3D物体的结构和运动学信息,并生成铰接物体的参数。3) 解码器:用于将MLLM生成的参数解码为3D网格。整个流程是端到端可训练的。
关键创新:SIMART最重要的技术创新点在于其统一的MLLM框架和稀疏3D VQ-VAE。统一的MLLM框架可以将零件级分解和运动学预测整合到一个模型中,从而避免了多阶段流程中的误差累积问题。稀疏3D VQ-VAE可以显著减少token数量,从而提高计算效率和可扩展性。与现有方法相比,SIMART能够生成更高质量、更复杂的铰接物体。
关键设计:稀疏3D VQ-VAE采用了一种基于八叉树的稀疏表示方法,可以有效地减少token数量。MLLM采用Transformer架构,并使用交叉注意力机制来融合视觉和语言信息。损失函数包括重建损失、量化损失和对抗损失,用于优化3D VQ-VAE和MLLM。
📊 实验亮点
SIMART在PartNet-Mobility数据集上实现了最先进的性能,显著优于现有方法。具体而言,SIMART在零件分割精度和运动学预测精度方面均取得了显著提升。此外,SIMART还在in-the-wild AIGC数据集上进行了实验,证明了其在真实场景中的泛化能力。通过引入稀疏3D VQ-VAE,SIMART比密集体素token减少了70%的token数量。
🎯 应用场景
SIMART在具身AI、机器人仿真、游戏开发等领域具有广泛的应用前景。它可以用于生成高质量的铰接3D资产,从而提高机器人与环境交互的真实感和效率。此外,SIMART还可以用于创建逼真的游戏角色和场景,从而提升游戏体验。未来,SIMART有望成为3D内容生成的重要工具。
📄 摘要(原文)
High-quality articulated 3D assets are indispensable for embodied AI and physical simulation, yet 3D generation still focuses on static meshes, leaving a gap in "sim-ready" interactive objects. Most recent articulated object creation methods rely on multi-stage pipelines that accumulate errors across decoupled modules. Alternatively, unified MLLMs offer a single-stage path to joint static asset understanding and sim-ready asset generation. However dense voxel-based 3D tokenization yields long 3D token sequences and high memory overhead, limiting scalability to complex articulated objects. To address this, we propose SIMART, a unified MLLM framework that jointly performs part-level decomposition and kinematic prediction. By introducing a Sparse 3D VQ-VAE, SIMART reduces token counts by 70% vs. dense voxel tokens, enabling high-fidelity multi-part assemblies. SIMART achieves state-of-the-art performance on PartNet-Mobility and in-the-wild AIGC datasets, and enables physics-based robotic simulation.