Ψ-Map: Panoptic Surface Integrated Mapping Enables Real2Sim Transfer
作者: Xuan Yu, Yuxuan Xie, Changjian Jiang, Shichao Zhai, Rong Xiong, Yu Zhang, Yue Wang
分类: cs.RO
发布日期: 2026-04-13
💡 一句话要点
提出Ψ-Map,实现大规模场景下几何精确、语义连贯的全景表面重建与Real2Sim迁移。
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 全景重建 3D高斯溅射 机器人感知 端到端学习 几何强化
📋 核心要点
- 现有基于3DGS的全景重建方法难以兼顾大规模场景下的几何精度、语义连贯性和实时推理速度。
- 提出Ψ-Map,利用激光雷达数据进行几何强化,设计端到端学习架构进行全景理解,并优化渲染管线。
- 实验结果表明,该系统在大规模场景中实现了卓越的几何和全景重建质量,并保持了超过40 FPS的推理速度。
📝 摘要(中文)
本文提出了一种综合框架,用于实现开放词汇全景重建,这对于高级机器人感知和仿真至关重要。现有基于3D高斯溅射(3DGS)的方法难以同时实现大规模场景中的几何精度、连贯的全景理解和实时推理频率。该框架集成了几何强化、端到端全景学习和高效渲染。首先,利用激光雷达数据构建平面约束的多模态高斯混合模型(GMMs),并采用2D高斯曲面元素作为地图表示,以确保大规模环境中的物理真实感,实现高精度表面对齐和连续几何监督。其次,设计了一种查询引导的端到端学习架构,克服了传统多阶段全景分割流程中的误差累积和繁琐的跨帧关联问题,通过在视锥内使用局部交叉注意力机制,将2D掩码特征直接提升到3D空间,实现全局一致的全景理解。最后,引入精确瓦片相交和Top-K硬选择策略,优化渲染管线,解决高维语义特征造成的计算瓶颈。实验结果表明,该系统在大规模场景中实现了卓越的几何和全景重建质量,同时保持超过40 FPS的推理速度,满足了机器人控制回路的实时性要求。
🔬 方法详解
问题定义:现有基于3D高斯溅射(3DGS)的全景重建方法在大规模场景中难以同时保证几何精度、语义连贯性和实时推理速度。传统的多阶段全景分割流程存在误差累积和跨帧关联困难的问题,高维语义特征也导致渲染计算量大。
核心思路:论文的核心思路是结合几何先验、端到端学习和高效渲染,构建一个能够在大规模场景下实现高质量全景表面重建的系统。通过引入激光雷达数据进行几何强化,利用端到端学习架构进行全景理解,并优化渲染管线,从而解决现有方法的不足。
技术框架:该框架主要包含三个模块:1) 几何强化模块,利用激光雷达数据构建平面约束的多模态高斯混合模型(GMMs),并采用2D高斯曲面元素作为地图表示,实现高精度表面对齐和连续几何监督。2) 端到端全景学习模块,设计了一种查询引导的端到端学习架构,通过在视锥内使用局部交叉注意力机制,将2D掩码特征直接提升到3D空间,实现全局一致的全景理解。3) 高效渲染模块,引入精确瓦片相交和Top-K硬选择策略,优化渲染管线,解决高维语义特征造成的计算瓶颈。
关键创新:该论文的关键创新在于:1) 提出了一种基于平面约束多模态GMM的几何强化方法,能够有效利用激光雷达数据提高几何精度。2) 设计了一种查询引导的端到端全景学习架构,避免了传统多阶段流程中的误差累积和跨帧关联问题。3) 提出了一种精确瓦片相交和Top-K硬选择策略,优化了渲染管线,提高了渲染效率。
关键设计:在几何强化模块中,使用了平面约束来提高GMM的精度。在端到端全景学习模块中,使用了局部交叉注意力机制来提取视锥内的特征。在高效渲染模块中,精确瓦片相交用于减少不必要的计算,Top-K硬选择策略用于选择最重要的语义特征进行渲染。损失函数的设计也至关重要,需要平衡几何精度和语义一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该系统在大型场景中实现了卓越的几何和全景重建质量,同时保持了超过40 FPS的推理速度。相较于现有方法,在几何精度和全景分割质量上均有显著提升。具体指标提升幅度未知。
🎯 应用场景
该研究成果可应用于机器人导航、自动驾驶、虚拟现实、增强现实等领域。通过提供高质量的全景表面重建,可以帮助机器人更好地理解周围环境,从而实现更安全、更高效的导航和操作。在虚拟现实和增强现实领域,可以提供更逼真的场景体验。
📄 摘要(原文)
Open-vocabulary panoptic reconstruction is essential for advanced robotics perception and simulation. However, existing methods based on 3D Gaussian Splatting (3DGS) often struggle to simultaneously achieve geometric accuracy, coherent panoptic understanding, and real-time inference frequency in large-scale scenes. In this paper, we propose a comprehensive framework that integrates geometric reinforcement, end-to-end panoptic learning, and efficient rendering. First, to ensure physical realism in large-scale environments, we leverage LiDAR data to construct plane-constrained multimodal Gaussian Mixture Models (GMMs) and employ 2D Gaussian surfels as the map representation, enabling high-precision surface alignment and continuous geometric supervision. Building upon this, to overcome the error accumulation and cumbersome cross-frame association inherent in traditional multi-stage panoptic segmentation pipelines, we design a query-guided end-to-end learning architecture. By utilizing a local cross-attention mechanism within the view frustum, the system lifts 2D mask features directly into 3D space, achieving globally consistent panoptic understanding. Finally, addressing the computational bottlenecks caused by high-dimensional semantic features, we introduce Precise Tile Intersection and a Top-K Hard Selection strategy to optimize the rendering pipeline. Experimental results demonstrate that our system achieves superior geometric and panoptic reconstruction quality in large-scale scenes while maintaining an inference rate exceeding 40 FPS, meeting the real-time requirements of robotic control loops.