3D Segmentation Using Viewpoint-Dependent Spatial Relationships
作者: Ayaka Nanri, Klara Reichard, Mert Kiray, Federico Tombari, Benjamin Busam, Asako Kanezaki
分类: cs.CV
发布日期: 2026-05-15
💡 一句话要点
提出视角依赖的3D指代分割数据集,并设计视角感知的模型以提升空间关系理解。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D指代分割 视角感知 空间关系 多模态学习 数据集构建
📋 核心要点
- 现有3D指代分割方法缺乏对观察者视角的显式建模,导致空间关系的理解存在歧义。
- 论文提出视角感知的3D指代分割数据集,并设计视角表示来编码相机姿态,从而实现视角条件下的模型训练。
- 实验表明,该方法显著提升了模型在视角依赖关系上的分割精度,mIoU提升至0.47。
📝 摘要(中文)
本文提出了一种视角感知的3D指代分割方法,旨在解决现有方法在处理“左”、“右”、“前”、“后”等空间关系时存在的歧义性问题。为此,作者构建了一个包含22万基准样本的3D指代分割数据集,并通过密集视角采样扩展到数千万个视角条件样本。该数据集中的目标对象只能通过以观察者为中心的空间关系来识别,这使得视角条件下的定位至关重要。作者利用相机姿态自动标注了以观察者为中心的关系(左/右、前/后)以及视角无关的关系(上/下)。在基准测试中,现有的大型多模态模型在零样本设置下表现不佳。作者进一步研究了如何将显式视角信息融入到3D大型多模态模型中,并提出了一种编码相机姿态的视角表示,从而提高了视角依赖关系的分割精度,并将mIoU从0.30提高到0.47。
🔬 方法详解
问题定义:现有的3D指代分割方法在理解和处理与观察者视角相关的空间关系(如“左”、“右”、“前”、“后”)时存在困难。这些方法通常忽略了观察者的视角信息,导致模型无法准确地理解和推理这些空间关系,从而影响了分割的准确性。
核心思路:本文的核心思路是通过显式地将观察者的视角信息融入到3D指代分割模型中,从而使模型能够更好地理解和处理视角相关的空间关系。具体来说,作者提出了一种视角表示方法,用于编码相机姿态,并将该表示作为模型的输入,从而使模型能够感知观察者的视角。
技术框架:整体框架包含两个主要部分:数据集构建和模型设计。数据集构建部分,作者创建了一个新的3D指代分割数据集,其中包含了大量的视角条件样本,并自动标注了视角相关的空间关系。模型设计部分,作者提出了一种视角表示方法,用于编码相机姿态,并将该表示作为模型的输入,从而使模型能够感知观察者的视角。该模型基于现有的3D大型多模态模型,通过添加视角条件模块来增强其对视角相关空间关系的理解能力。
关键创新:该论文的关键创新在于提出了一个视角感知的3D指代分割数据集,并设计了一种视角表示方法,用于编码相机姿态。与现有方法相比,该方法能够显式地将观察者的视角信息融入到模型中,从而使模型能够更好地理解和处理视角相关的空间关系。
关键设计:视角表示的设计是关键。作者使用相机姿态(位置和旋转)来编码视角信息。具体实现细节(例如,如何将相机姿态转换为可用的特征向量,以及如何将该特征向量融入到模型中)在论文中进行了详细描述。损失函数方面,使用了标准的分割损失函数(例如,交叉熵损失)来训练模型。网络结构方面,在现有的3D大型多模态模型的基础上,添加了一个视角条件模块,用于将视角表示融入到模型中。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法显著提升了模型在视角依赖关系上的分割精度。在提出的基准测试中,与没有视角条件的模型相比,该方法的mIoU从0.30提高到0.47,证明了视角信息对于理解和处理空间关系的重要性。
🎯 应用场景
该研究成果可应用于机器人导航、增强现实、自动驾驶等领域。例如,机器人可以根据用户的自然语言指令(如“拿起桌子左边的杯子”)来执行任务,增强现实应用可以根据用户的视角来呈现更准确的3D模型,自动驾驶系统可以根据车辆的视角来识别交通标志和行人。
📄 摘要(原文)
Recent advances in 3D datasets and multimodal models have greatly improved natural language 3D scene understanding. However, most 3D referring segmentation methods do not explicitly represent the observer viewpoint, making spatial relations such as "left," "right," "front," and "behind" ambiguous and difficult to evaluate. We introduce a viewpoint-aware 3D referring segmentation dataset containing 220k benchmark samples, and scalable to tens of millions of viewpoint-conditioned samples through dense viewpoint sampling. In this dataset, target objects can only be identified through observer-centric spatial relations, making viewpoint-conditioned grounding necessary. We construct the benchmark by leveraging camera poses to automatically annotate observer-centric relations (left/right, front/behind) together with viewpoint-independent relations (above/under). Using this benchmark, we evaluate several existing 3D large multimodal models in a zero-shot setting and find that current models struggle with viewpoint-dependent spatial instructions. We further study how explicit viewpoint information can be incorporated into 3D large multimodal models. We introduce a viewpoint representation that encodes camera poses and conditions the model on the observation viewpoint, improving segmentation accuracy on viewpoint-dependent relations and increasing mIoU from 0.30 to 0.47 compared to a model without viewpoint conditioning. The dataset, code, and trained models will be made publicly available upon acceptance.