MonoArt: Progressive Structural Reasoning for Monocular Articulated 3D Reconstruction

📄 arXiv: 2603.19231v1 📥 PDF

作者: Haitian Li, Haozhe Xie, Junxiang Xu, Beichen Wen, Fangzhou Hong, Ziwei Liu

分类: cs.CV

发布日期: 2026-03-19

备注: Project page: https://lihaitian.com/MonoArt


💡 一句话要点

MonoArt:单目图像中可动3D物体重建的渐进式结构推理方法

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目3D重建 可动物体 结构推理 关节参数估计 机器人操作

📋 核心要点

  1. 从单张图像重建可动3D物体,关键挑战在于运动线索与物体结构的相互影响,导致直接关节回归不稳定。
  2. MonoArt通过渐进式结构推理,将视觉信息逐步转化为规范几何、结构化部件表示和运动感知嵌入,实现稳定关节推断。
  3. 实验表明,MonoArt在PartNet-Mobility数据集上取得了SOTA性能,并在重建精度和推理速度上均有提升。

📝 摘要(中文)

本文提出MonoArt,一个统一的框架,用于从单张图像中重建可动3D物体。该方法通过渐进式结构推理,将视觉观察转化为规范几何体、结构化部件表示和运动感知嵌入,从而解决运动线索和物体结构之间的纠缠问题。MonoArt无需外部运动模板或多阶段流程,即可实现稳定且可解释的关节推断。在PartNet-Mobility上的实验表明,MonoArt在重建精度和推理速度方面均达到了最先进的性能。该框架还可推广到机器人操作和可动场景重建。

🔬 方法详解

问题定义:现有方法在单目图像中重建可动3D物体时,难以解耦运动线索和物体结构,导致关节参数回归不稳定。传统方法依赖多视角监督、基于检索的组装或辅助视频生成,牺牲了可扩展性和效率。

核心思路:MonoArt的核心思想是避免直接从图像特征回归关节参数,而是通过渐进式的结构推理,逐步将视觉信息转化为更易于理解和处理的中间表示,包括规范几何体、结构化部件表示和运动感知嵌入。这种解耦的方式能够提高关节推断的稳定性和可解释性。

技术框架:MonoArt的整体架构是一个统一的框架,包含以下主要模块:1) 视觉特征提取模块,用于从输入图像中提取视觉特征;2) 规范几何体预测模块,用于预测物体的规范几何形状;3) 结构化部件表示模块,用于学习物体的部件结构表示;4) 运动感知嵌入模块,用于学习运动感知的嵌入向量;5) 关节参数预测模块,用于根据上述中间表示预测关节参数。整个流程是端到端可训练的。

关键创新:MonoArt的关键创新在于其渐进式的结构推理方法,它将复杂的关节推断问题分解为一系列更易于解决的子问题,并通过中间表示的逐步转化来实现解耦。与现有方法相比,MonoArt无需外部运动模板或多阶段流程,从而提高了效率和可扩展性。

关键设计:MonoArt的具体实现细节包括:使用图神经网络来建模部件之间的关系;设计了特定的损失函数来约束中间表示的学习,例如,使用几何一致性损失来约束规范几何体的预测;使用对比学习来学习运动感知的嵌入向量。具体的网络结构和参数设置在论文中有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在PartNet-Mobility数据集上的实验结果表明,MonoArt在重建精度和推理速度方面均达到了最先进的性能。具体而言,MonoArt在关节角度误差、部件分割精度等指标上均优于现有方法,并且推理速度更快。这些结果验证了MonoArt的有效性和优越性。

🎯 应用场景

MonoArt具有广泛的应用前景,包括机器人操作、虚拟现实/增强现实、游戏开发等领域。例如,在机器人操作中,MonoArt可以帮助机器人理解和操作可动物体;在VR/AR中,可以用于创建更逼真的可交互的3D场景;在游戏开发中,可以用于生成更自然的角色动画。

📄 摘要(原文)

Reconstructing articulated 3D objects from a single image requires jointly inferring object geometry, part structure, and motion parameters from limited visual evidence. A key difficulty lies in the entanglement between motion cues and object structure, which makes direct articulation regression unstable. Existing methods address this challenge through multi-view supervision, retrieval-based assembly, or auxiliary video generation, often sacrificing scalability or efficiency. We present MonoArt, a unified framework grounded in progressive structural reasoning. Rather than predicting articulation directly from image features, MonoArt progressively transforms visual observations into canonical geometry, structured part representations, and motion-aware embeddings within a single architecture. This structured reasoning process enables stable and interpretable articulation inference without external motion templates or multi-stage pipelines. Extensive experiments on PartNet-Mobility demonstrate that OM achieves state-of-the-art performance in both reconstruction accuracy and inference speed. The framework further generalizes to robotic manipulation and articulated scene reconstruction.