OVI-MAP:Open-Vocabulary Instance-Semantic Mapping

📄 arXiv: 2603.26541v1 📥 PDF

作者: Zilong Deng, Federico Tombari, Marc Pollefeys, Johanna Wald, Daniel Barath

分类: cs.CV

发布日期: 2026-03-27


💡 一句话要点

OVI-MAP:解耦实例重建与语义推理,实现开放词汇实例语义地图构建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 开放词汇语义地图 实例分割 视觉-语言模型 3D重建 机器人导航

📋 核心要点

  1. 现有开放词汇语义地图构建方法受限于闭集假设和逐像素语言融合,导致可扩展性和时间一致性问题。
  2. OVI-MAP通过解耦实例重建和语义推理,构建类别无关的3D实例地图,并使用视觉-语言模型提取语义特征。
  3. 该系统能够实时运行,并在标准基准测试中超越了现有的开放词汇地图构建方法。

📝 摘要(中文)

本文提出了一种增量式的开放词汇3D实例语义地图构建方法,对于在复杂日常环境中运行的自主智能体至关重要。由于需要鲁棒的实例分割、实时处理和灵活的开放集推理,这项任务仍然具有挑战性。现有方法通常依赖于闭集假设或密集的逐像素语言融合,这限制了可扩展性和时间一致性。我们引入了OVI-MAP,它将实例重建与语义推理解耦。我们提出构建一个类别无关的3D实例地图,该地图由RGB-D输入增量构建,而语义特征仅从一小组自动选择的视图中使用视觉-语言模型提取。这种设计能够在整个在线探索过程中实现稳定的实例跟踪和零样本语义标注。我们的系统实时运行,并在标准基准测试中优于最先进的开放词汇映射基线。

🔬 方法详解

问题定义:现有开放词汇实例语义地图构建方法主要面临三个挑战:一是需要鲁棒的实例分割以区分不同的物体;二是需要实时处理以满足自主智能体的需求;三是需要灵活的开放集推理能力,能够识别未知的物体类别。现有方法通常依赖于闭集假设,即假设所有物体类别都是已知的,或者采用密集的逐像素语言融合,这限制了它们在复杂环境中的可扩展性和时间一致性。

核心思路:OVI-MAP的核心思路是将实例重建与语义推理解耦。首先,构建一个类别无关的3D实例地图,该地图仅关注物体的几何结构和空间关系,而不涉及物体的语义信息。然后,利用视觉-语言模型,从少量自动选择的关键帧中提取语义特征,并将这些特征关联到相应的3D实例上。这种解耦的设计使得系统能够独立地处理实例重建和语义推理,从而提高了系统的鲁棒性和可扩展性。

技术框架:OVI-MAP的整体框架包括以下几个主要模块:1) RGB-D数据输入:系统接收RGB-D图像作为输入。2) 3D实例地图构建:基于RGB-D数据,系统增量地构建一个类别无关的3D实例地图。3) 关键帧选择:系统自动选择一组关键帧,用于提取语义特征。4) 语义特征提取:利用视觉-语言模型,从关键帧中提取语义特征。5) 语义标注:将提取的语义特征关联到相应的3D实例上,完成语义标注。

关键创新:OVI-MAP最重要的技术创新点在于将实例重建与语义推理解耦。这种解耦的设计使得系统能够独立地处理实例重建和语义推理,从而提高了系统的鲁棒性和可扩展性。此外,系统采用自动关键帧选择策略,减少了语义特征提取的计算量,提高了系统的实时性。

关键设计:在3D实例地图构建方面,系统采用了一种基于RGB-D SLAM的方法,利用深度信息进行几何重建。在关键帧选择方面,系统采用了一种基于信息增益的策略,选择包含最多语义信息的关键帧。在语义特征提取方面,系统采用了CLIP等视觉-语言模型,将图像信息映射到语义空间。具体的损失函数和网络结构细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OVI-MAP在标准基准测试中优于现有的开放词汇地图构建方法。具体性能数据和提升幅度在摘要中未给出,属于未知信息。但摘要强调了该系统能够实时运行,并在开放词汇语义地图构建任务上取得了显著的性能提升。

🎯 应用场景

OVI-MAP在机器人导航、场景理解、增强现实等领域具有广泛的应用前景。例如,它可以用于自主机器人在未知环境中进行探索和导航,帮助机器人理解周围环境的语义信息,从而更好地完成任务。此外,OVI-MAP还可以用于构建虚拟现实场景,为用户提供更加沉浸式的体验。未来,该技术有望应用于智能家居、自动驾驶等领域。

📄 摘要(原文)

Incremental open-vocabulary 3D instance-semantic mapping is essential for autonomous agents operating in complex everyday environments. However, it remains challenging due to the need for robust instance segmentation, real-time processing, and flexible open-set reasoning. Existing methods often rely on the closed-set assumption or dense per-pixel language fusion, which limits scalability and temporal consistency. We introduce OVI-MAP that decouples instance reconstruction from semantic inference. We propose to build a class-agnostic 3D instance map that is incrementally constructed from RGB-D input, while semantic features are extracted only from a small set of automatically selected views using vision-language models. This design enables stable instance tracking and zero-shot semantic labeling throughout online exploration. Our system operates in real time and outperforms state-of-the-art open-vocabulary mapping baselines on standard benchmarks.