SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

作者: Chuanrui Zhang, Minghan Qin, Yuang Wang, Baifeng Xie, Hang Li, Ziwei Wang

分类: cs.CV, cs.GR, cs.RO

发布日期: 2026-03-24

💡 一句话要点

SIMART：通过MLLM将整体网格分解为可用于仿真的铰接资产

🎯 匹配领域: 支柱四：生成式动作 (Generative Motion) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 铰接物体生成 多模态大语言模型 零件级分解 运动学预测 稀疏3D VQ-VAE

📋 核心要点

现有铰接物体生成方法依赖多阶段流程，误差在解耦模块间累积，缺乏端到端优化。
SIMART提出统一的MLLM框架，联合执行零件级分解和运动学预测，实现单阶段生成。
SIMART引入稀疏3D VQ-VAE，显著减少token数量，提升复杂铰接物体的生成质量。

📝 摘要（中文）

高质量的铰接3D资产对于具身AI和物理仿真至关重要，但3D生成仍然侧重于静态网格，导致“可用于仿真”的交互式对象存在差距。目前大多数铰接对象创建方法依赖于多阶段流程，这些流程会在解耦模块之间累积误差。作为替代方案，统一的MLLM提供了一种单阶段路径，可以联合进行静态资产理解和可用于仿真的资产生成。然而，基于密集体素的3D token化会产生较长的3D token序列和较高的内存开销，从而限制了复杂铰接对象的可扩展性。为了解决这个问题，我们提出了SIMART，一个统一的MLLM框架，可以联合执行零件级分解和运动学预测。通过引入稀疏3D VQ-VAE，SIMART比密集体素token减少了70%的token数量，从而实现了高保真的多零件组装。SIMART在PartNet-Mobility和in-the-wild AIGC数据集上实现了最先进的性能，并支持基于物理的机器人仿真。

🔬 方法详解

问题定义：现有铰接物体生成方法通常采用多阶段流程，例如先进行零件分割，再进行运动学预测，最后进行组装。这些流程中的每个阶段都可能引入误差，并且误差会在后续阶段累积，导致最终生成的铰接物体质量不高。此外，现有方法难以处理复杂的铰接物体，因为其计算复杂度会随着零件数量的增加而迅速增长。

核心思路：SIMART的核心思路是利用多模态大语言模型（MLLM）的强大能力，将零件级分解和运动学预测整合到一个统一的框架中。通过将3D物体表示为token序列，并利用MLLM进行序列到序列的生成，SIMART可以实现端到端的铰接物体生成，从而避免了多阶段流程中的误差累积问题。此外，SIMART还引入了稀疏3D VQ-VAE，以减少token数量，从而提高计算效率和可扩展性。

技术框架：SIMART的整体框架包括以下几个主要模块：1) 稀疏3D VQ-VAE：用于将3D物体编码为离散的token序列。2) MLLM：用于学习3D物体的结构和运动学信息，并生成铰接物体的参数。3) 解码器：用于将MLLM生成的参数解码为3D网格。整个流程是端到端可训练的。

关键创新：SIMART最重要的技术创新点在于其统一的MLLM框架和稀疏3D VQ-VAE。统一的MLLM框架可以将零件级分解和运动学预测整合到一个模型中，从而避免了多阶段流程中的误差累积问题。稀疏3D VQ-VAE可以显著减少token数量，从而提高计算效率和可扩展性。与现有方法相比，SIMART能够生成更高质量、更复杂的铰接物体。

关键设计：稀疏3D VQ-VAE采用了一种基于八叉树的稀疏表示方法，可以有效地减少token数量。MLLM采用Transformer架构，并使用交叉注意力机制来融合视觉和语言信息。损失函数包括重建损失、量化损失和对抗损失，用于优化3D VQ-VAE和MLLM。

📊 实验亮点

SIMART在PartNet-Mobility数据集上实现了最先进的性能，显著优于现有方法。具体而言，SIMART在零件分割精度和运动学预测精度方面均取得了显著提升。此外，SIMART还在in-the-wild AIGC数据集上进行了实验，证明了其在真实场景中的泛化能力。通过引入稀疏3D VQ-VAE，SIMART比密集体素token减少了70%的token数量。

🎯 应用场景

SIMART在具身AI、机器人仿真、游戏开发等领域具有广泛的应用前景。它可以用于生成高质量的铰接3D资产，从而提高机器人与环境交互的真实感和效率。此外，SIMART还可以用于创建逼真的游戏角色和场景，从而提升游戏体验。未来，SIMART有望成为3D内容生成的重要工具。

📄 摘要（原文）

High-quality articulated 3D assets are indispensable for embodied AI and physical simulation, yet 3D generation still focuses on static meshes, leaving a gap in "sim-ready" interactive objects. Most recent articulated object creation methods rely on multi-stage pipelines that accumulate errors across decoupled modules. Alternatively, unified MLLMs offer a single-stage path to joint static asset understanding and sim-ready asset generation. However dense voxel-based 3D tokenization yields long 3D token sequences and high memory overhead, limiting scalability to complex articulated objects. To address this, we propose SIMART, a unified MLLM framework that jointly performs part-level decomposition and kinematic prediction. By introducing a Sparse 3D VQ-VAE, SIMART reduces token counts by 70% vs. dense voxel tokens, enabling high-fidelity multi-part assemblies. SIMART achieves state-of-the-art performance on PartNet-Mobility and in-the-wild AIGC datasets, and enables physics-based robotic simulation.

SIMART: Decomposing Monolithic Meshes into Sim-ready Articulated Assets via MLLM

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理