ArtGen: Conditional Generative Modeling of Articulated Objects in Arbitrary Part-Level States

📄 arXiv: 2512.12395v1 📥 PDF

作者: Haowen Wang, Xiaoping Yuan, Fugang Zhang, Rui Jian, Yuanwei Zhu, Xiuquan Qiao, Yakun Huang

分类: cs.CV

发布日期: 2025-12-13


💡 一句话要点

ArtGen:提出一种条件生成模型,用于生成任意部件状态下的铰接物体。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 铰接物体生成 条件生成模型 扩散模型 运动学一致性 思维链推理

📋 核心要点

  1. 现有铰接物体生成模型依赖于闭合状态的单视角输入,导致几何形状和关节动力学纠缠,产生不明确或不真实的运动学结构。
  2. ArtGen通过跨状态蒙特卡洛采样强制全局运动学一致性,并利用思维链推理模块推断结构先验,从而解耦结构和运动。
  3. 在PartNet-Mobility基准测试中,ArtGen显著优于现有方法,证明了其在铰接物体生成方面的优越性。

📝 摘要(中文)

本文提出ArtGen,一个基于条件扩散的框架,能够从单视角图像或文本描述中生成具有精确几何形状和连贯运动学的铰接3D物体,且部件状态任意。ArtGen采用跨状态蒙特卡洛采样,显式地强制执行全局运动学一致性,从而减少结构-运动的纠缠。此外,集成了思维链推理模块,以推断稳健的结构先验,例如部件语义、关节类型和连接性,指导稀疏专家扩散Transformer专注于不同的运动学交互。同时,一个由局部-全局注意力增强的组合式3D-VAE潜在先验有效地捕捉了细粒度的几何形状和全局部件级关系。在PartNet-Mobility基准上的大量实验表明,ArtGen显著优于最先进的方法。

🔬 方法详解

问题定义:现有铰接物体生成模型难以在任意部件状态下生成具有精确几何形状和连贯运动学的3D物体。主要痛点在于几何形状和关节动力学之间的纠缠,导致生成的物体运动学结构不合理,缺乏全局一致性。

核心思路:ArtGen的核心思路是通过显式地建模和解耦结构信息和运动信息来解决上述问题。具体来说,利用跨状态蒙特卡洛采样来保证全局运动学一致性,并使用思维链推理模块来推断稳健的结构先验。

技术框架:ArtGen的整体框架包含以下几个主要模块:1) 跨状态蒙特卡洛采样模块,用于强制执行全局运动学一致性;2) 思维链推理模块,用于推断部件语义、关节类型和连接性等结构先验;3) 稀疏专家扩散Transformer,用于学习不同的运动学交互;4) 组合式3D-VAE潜在先验,用于捕捉细粒度的几何形状和全局部件级关系。

关键创新:ArtGen的关键创新在于:1) 提出跨状态蒙特卡洛采样方法,显式地保证全局运动学一致性;2) 引入思维链推理模块,从单视角图像或文本描述中推断稳健的结构先验;3) 设计稀疏专家扩散Transformer,专门处理不同的运动学交互。与现有方法相比,ArtGen能够更好地解耦结构和运动,从而生成更合理、更真实的铰接物体。

关键设计:ArtGen的关键设计包括:1) 跨状态蒙特卡洛采样的具体实现方式,例如采样策略和接受/拒绝准则;2) 思维链推理模块的网络结构和训练方法;3) 稀疏专家扩散Transformer的网络结构和专家选择策略;4) 组合式3D-VAE潜在先验的局部-全局注意力机制的具体实现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ArtGen在PartNet-Mobility基准测试中取得了显著的性能提升,超越了现有的最先进方法。具体来说,ArtGen在生成铰接物体的几何形状和运动学结构方面都表现出更高的准确性和一致性。实验结果表明,ArtGen能够有效地解耦结构和运动,从而生成更合理、更真实的铰接物体。

🎯 应用场景

ArtGen在机器人、数字孪生和具身智能等领域具有广泛的应用前景。它可以用于生成各种铰接物体,例如机器人手臂、家具和车辆,从而为这些应用提供高质量的3D模型。此外,ArtGen还可以用于创建虚拟环境和训练机器人,提高机器人的感知和控制能力。

📄 摘要(原文)

Generating articulated assets is crucial for robotics, digital twins, and embodied intelligence. Existing generative models often rely on single-view inputs representing closed states, resulting in ambiguous or unrealistic kinematic structures due to the entanglement between geometric shape and joint dynamics. To address these challenges, we introduce ArtGen, a conditional diffusion-based framework capable of generating articulated 3D objects with accurate geometry and coherent kinematics from single-view images or text descriptions at arbitrary part-level states. Specifically, ArtGen employs cross-state Monte Carlo sampling to explicitly enforce global kinematic consistency, reducing structural-motion entanglement. Additionally, we integrate a Chain-of-Thought reasoning module to infer robust structural priors, such as part semantics, joint types, and connectivity, guiding a sparse-expert Diffusion Transformer to specialize in diverse kinematic interactions. Furthermore, a compositional 3D-VAE latent prior enhanced with local-global attention effectively captures fine-grained geometry and global part-level relationships. Extensive experiments on the PartNet-Mobility benchmark demonstrate that ArtGen significantly outperforms state-of-the-art methods.