OmniMap: A General Mapping Framework Integrating Optics, Geometry, and Semantics

📄 arXiv: 2509.07500v1 📥 PDF

作者: Yinan Deng, Yufeng Yue, Jianyu Dou, Jingyu Zhao, Jiahui Wang, Yujie Tang, Yi Yang, Mengyin Fu

分类: cs.RO

发布日期: 2025-09-09

备注: Accepted by IEEE Transactions on Robotics (TRO), project website: https://omni-map.github.io/


💡 一句话要点

OmniMap:提出一种融合光学、几何和语义信息的通用建图框架。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 三维重建 语义SLAM 机器人导航 多模态融合 环境感知

📋 核心要点

  1. 现有方法在机器人环境感知中,难以同时保证光学逼真度、几何精度和语义理解的准确性。
  2. OmniMap采用紧耦合的3DGS-Voxel混合表示,结合细粒度建模和结构稳定性,实现多模态信息融合。
  3. 实验表明,OmniMap在渲染质量、几何精度和零样本语义分割方面优于现有技术,并支持多种下游应用。

📝 摘要(中文)

机器人系统需要精确和全面的3D环境感知,这需要同时捕获逼真的外观(光学)、精确的布局形状(几何)和开放词汇的场景理解(语义)。现有方法通常只能部分满足这些要求,同时表现出光学模糊、几何不规则和语义歧义。为了解决这些挑战,我们提出了OmniMap。总体而言,OmniMap是第一个在线建图框架,可以同时捕获光学、几何和语义场景属性,同时保持实时性能和模型紧凑性。在架构层面,OmniMap采用紧耦合的3DGS-Voxel混合表示,将细粒度建模与结构稳定性相结合。在实现层面,OmniMap识别了不同模态的关键挑战,并引入了几项创新:用于运动模糊和曝光补偿的自适应相机建模、具有法线约束的混合增量表示以及用于鲁棒实例级理解的概率融合。大量实验表明,与各种场景中的最新方法相比,OmniMap在渲染保真度、几何精度和零样本语义分割方面表现出卓越的性能。该框架的多功能性通过各种下游应用进一步证明,包括多领域场景问答、交互式编辑、感知引导的操作和地图辅助导航。

🔬 方法详解

问题定义:现有机器人环境感知方法难以同时实现光学逼真度、几何精度和语义理解。具体表现为光学模糊、几何不规则以及语义歧义,限制了机器人系统在复杂环境中的应用。现有方法往往侧重于单一模态的信息,忽略了多模态信息融合的重要性。

核心思路:OmniMap的核心思路是构建一个能够同时捕获和融合光学、几何和语义信息的通用建图框架。通过紧耦合的3DGS-Voxel混合表示,兼顾了细粒度建模和结构稳定性,从而克服了现有方法的局限性。这种混合表示能够有效地处理不同模态的数据,并实现它们之间的相互补充和增强。

技术框架:OmniMap的整体框架包含以下几个主要模块:1) 自适应相机建模模块,用于处理运动模糊和曝光补偿;2) 混合增量表示模块,采用3DGS-Voxel混合结构,并引入法线约束以提高几何精度;3) 概率融合模块,用于实现鲁棒的实例级语义理解。整个框架以在线方式运行,能够实时构建环境地图。

关键创新:OmniMap的关键创新在于其紧耦合的3DGS-Voxel混合表示。与传统的单一表示方法相比,这种混合表示能够更好地平衡建模精度和计算效率。此外,自适应相机建模和概率融合模块也为提高光学质量和语义理解的鲁棒性做出了重要贡献。

关键设计:在混合表示中,3DGS用于精细地建模场景的外观和几何细节,而Voxel则提供结构化的空间信息,增强了框架的稳定性。自适应相机建模模块通过估计相机的运动参数和曝光参数,对图像进行校正。概率融合模块则利用概率模型对不同来源的语义信息进行融合,从而提高语义分割的准确性和鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,OmniMap在渲染保真度、几何精度和零样本语义分割方面均优于现有方法。例如,在渲染保真度方面,OmniMap的PSNR指标平均提升了X%;在几何精度方面,OmniMap的Chamfer Distance指标平均降低了Y%。此外,OmniMap还展示了在多领域场景问答、交互式编辑、感知引导的操作和地图辅助导航等下游应用中的潜力。

🎯 应用场景

OmniMap具有广泛的应用前景,包括但不限于:机器人导航、场景理解、人机交互、虚拟现实/增强现实等。该框架能够为机器人提供更全面、更准确的环境信息,从而提高机器人在复杂环境中的自主性和适应性。此外,OmniMap还可以用于构建高质量的3D场景模型,为虚拟现实和增强现实应用提供支持。

📄 摘要(原文)

Robotic systems demand accurate and comprehensive 3D environment perception, requiring simultaneous capture of photo-realistic appearance (optical), precise layout shape (geometric), and open-vocabulary scene understanding (semantic). Existing methods typically achieve only partial fulfillment of these requirements while exhibiting optical blurring, geometric irregularities, and semantic ambiguities. To address these challenges, we propose OmniMap. Overall, OmniMap represents the first online mapping framework that simultaneously captures optical, geometric, and semantic scene attributes while maintaining real-time performance and model compactness. At the architectural level, OmniMap employs a tightly coupled 3DGS-Voxel hybrid representation that combines fine-grained modeling with structural stability. At the implementation level, OmniMap identifies key challenges across different modalities and introduces several innovations: adaptive camera modeling for motion blur and exposure compensation, hybrid incremental representation with normal constraints, and probabilistic fusion for robust instance-level understanding. Extensive experiments show OmniMap's superior performance in rendering fidelity, geometric accuracy, and zero-shot semantic segmentation compared to state-of-the-art methods across diverse scenes. The framework's versatility is further evidenced through a variety of downstream applications, including multi-domain scene Q&A, interactive editing, perception-guided manipulation, and map-assisted navigation.