Segment and Select: Vision-Language Segmentation in 3D Scenarios
作者: Yulin Chen, Zhihang Zhong, Yuenan Hou
分类: cs.CV
发布日期: 2026-06-09
备注: The core idea is to reformulate 3D vision-language segmentation as the segment-and-select paradigm (free from the superpoint dependency)
💡 一句话要点
提出SEGA3D以解决3D视觉语言分割中的边界模糊问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D视觉分割 语言模型 细粒度掩码 语义理解 空间信息 机器人导航 增强现实
📋 核心要点
- 现有方法依赖粗糙的超点表示,导致分割质量差和对象边界模糊。
- 提出SEGA3D范式,直接利用细粒度视觉信息,避免超点依赖,提升分割效果。
- 在ScanRefer、ScanNet和Matterport3D基准上,SEGA3D的性能显著优于现有方法,尤其在ScanNet上提升8.3 mIoU。
📝 摘要(中文)
3D视觉语言分割旨在根据语言指令和视觉观察对3D场景中的目标对象进行分割。现有方法依赖粗糙的超点表示,导致分割质量差和对象边界混乱。本文提出的SEGA3D范式直接操作细粒度视觉信息,摆脱了超点依赖。我们首先利用掩码候选生成器提供细粒度的类别掩码候选,显著提高了候选掩码的质量。然后,使用大型语言模型生成基于语言描述和视觉特征的语义和空间信息,最终通过循环验证模块从选定的候选掩码中生成分割掩码。SEGA3D在ScanRefer、ScanNet和Matterport3D基准上表现出色,尤其在ScanNet和Matterport3D上分别超越了最佳对手8.3 mIoU和5.3 mIoU。
🔬 方法详解
问题定义:本文解决3D视觉语言分割中的目标对象分割问题,现有方法因依赖超点表示而导致分割质量低下和边界模糊。
核心思路:SEGA3D通过直接操作细粒度视觉信息,利用掩码候选生成器生成高质量的类别掩码候选,结合大型语言模型生成的语义和空间信息,提升分割精度。
技术框架:整体架构包括掩码候选生成器、语义空间选择器和循环验证模块。掩码候选生成器提供细粒度掩码,语义空间选择器根据语言描述和视觉特征选择最佳候选,循环验证模块最终生成分割掩码。
关键创新:SEGA3D的主要创新在于摆脱了超点依赖,直接利用细粒度视觉信息进行分割,显著提高了分割质量和边界清晰度。
关键设计:在设计中,掩码候选生成器采用了先进的网络结构,损失函数经过优化以提高掩码质量,确保模型能够有效学习到语义和空间信息的结合。
🖼️ 关键图片
📊 实验亮点
SEGA3D在ScanRefer、ScanNet和Matterport3D基准上表现优异,特别是在ScanNet上提升了8.3 mIoU,在Matterport3D上提升了5.3 mIoU,显著超越了现有最佳方法,展示了其在3D视觉语言分割中的强大能力。
🎯 应用场景
该研究在3D场景中的视觉语言理解和机器人导航等领域具有广泛的应用潜力。通过提高分割精度,SEGA3D可以为自动驾驶、增强现实和智能家居等技术提供更可靠的支持,推动相关领域的发展。
📄 摘要(原文)
3D vision-language segmentation aims to segment target objects in 3D scenarios according to the linguistic instructions and visual observations. Prior art heavily relies on the coarse superpoint representation to reduce the computation complexity, which suffers from poor segmentation quality and messy object boundaries. In this paper, we propose the SEGment-And-select (SEGA3D) paradigm for 3D visionlanguage segmentation that directly operates on the fine-grained visual information and is free from the superpoint dependency. Specifically, we first leverage a mask candidate generator to provide fine-grained categorical mask candidates, substantially improving the quality of candidate masks over the superpoint counterparts. Then, a Large Language Model (LLM) is utilized to generate the semantic and spatial information based on the linguistic description and visual features. The LLM output and visual features are fed to the Semantic-Spatial Selector (SSS) to produce the top-ranking mask candidates. Eventually, the Loopback Verification Module (LVM) is designed to yield the segmentation mask from the selected candidate masks. Our SEGA3D attains competitive performance on ScanRefer, ScanNet and Matterport3D benchmarks. Notably, our SEGA3D surpasses the top-performing counterpart by 8.3 mIoU and 5.3 mIoU on ScanNet and Matterport3D, respectively. Codes will be available upon publication.