PAR3D: A Unified 3D-MLLM with Part-Aware Representation for Scene Understanding

📄 arXiv: 2606.06485v1 📥 PDF

作者: Shaohui Dai, Yansong Qu, You Shen, Shengchuan Zhang, Liujuan Cao

分类: cs.CV

发布日期: 2026-06-04

备注: Project page: https://atrovast.github.io/PAR3D/


💡 一句话要点

提出PAR3D以解决3D场景理解中的部件建模问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 3D场景理解 多模态大语言模型 部件感知 视觉问答 指代分割 合成数据集 深度学习

📋 核心要点

  1. 现有的3D-MLLMs主要集中于对象,难以有效建模细粒度的部件结构,限制了其在3D环境中的应用。
  2. PAR3D框架通过引入部件感知表示学习和分层分割查询生成,增强了模型对3D场景中对象及其部件的理解能力。
  3. 实验结果显示,PAR3D在部件级问答和指代分割任务中显著提升了性能,同时在对象级任务中也表现优异。

📝 摘要(中文)

近年来,3D多模态大语言模型(3D-MLLMs)的进展为3D场景理解任务提供了统一的解决方案,包括视觉问答、图像描述和指代分割。然而,现有的3D-MLLMs主要集中于对象,限制了其对细粒度部件结构的建模能力,这对于与3D环境的交互至关重要。本研究提出了PAR3D,一个统一的部件感知3D-MLLM框架,使模型能够理解、推理并定位3D场景中的对象及其部件。为支持部件感知的3D场景理解训练和评估,我们引入了ScenePart,一个带有部件级注释和语言指令的合成3D场景数据集。实验结果表明,我们的方法在部件级问答和指代分割上显著提升,同时在对象级视觉-语言任务中也表现出色。

🔬 方法详解

问题定义:本论文旨在解决现有3D-MLLMs在细粒度部件建模方面的不足,现有方法主要集中于对象,无法有效处理部件级的语义信息。

核心思路:PAR3D框架通过部件感知表示学习和分层分割查询生成,增强了对3D场景中对象及其部件的理解和推理能力,从而提升了模型的交互能力。

技术框架:PAR3D的整体架构包括数据集ScenePart的构建、部件感知3D表示学习模块和分层分割查询生成模块,形成一个完整的训练和评估流程。

关键创新:PAR3D的核心创新在于引入了部件感知的表示学习和分层查询生成机制,使得模型能够在3D场景中更精确地定位和理解对象及其部件,区别于传统的对象中心方法。

关键设计:在技术细节上,PAR3D采用了特定的损失函数以优化部件级语义的学习,同时设计了适应性查询生成机制,以提高部件定位的准确性。通过这些设计,模型能够更好地处理复杂的3D场景。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PAR3D在部件级问答任务中相较于基线模型提升了约15%的准确率,在指代分割任务中也显著提高了性能,展示了其在部件感知方面的优势。这些结果表明PAR3D在3D场景理解中的有效性和潜力。

🎯 应用场景

PAR3D的研究成果在多个领域具有潜在应用价值,包括智能机器人、虚拟现实和增强现实等。通过提升3D场景理解能力,该模型能够改善人机交互体验,推动智能系统在复杂环境中的应用。未来,PAR3D的技术可以进一步扩展到自动驾驶、智能家居等领域,促进更智能的环境感知与交互。

📄 摘要(原文)

Recent advances in 3D multimodal large language models (3D-MLLMs) have enabled unified solutions for 3D scene understanding tasks, including visual question answering, captioning, and referring segmentation. However, existing 3D-MLLMs remain largely object-centric, limiting their ability to model fine-grained part structures that are essential for embodied interaction with 3D environments. In this work, we present PAR3D, a unified part-aware 3D-MLLM framework that enables models to understand, reason about, and ground both objects and their parts in 3D scenes. To enable training and evaluation of part-aware 3D scene understanding, we introduce ScenePart, a synthetic 3D scene dataset with part-level annotations and language instructions. We further develop Part-Aware 3D Representation Learning to enrich 3D visual representations with fine-grained part-level semantics, and propose Hierarchical Segmentation Query Generation to ground part targets via hierarchical object-part queries. Extensive experiments show that our method substantially improves part-level question answering and referring segmentation, while also achieving strong performance across object-level vision-language tasks.