Generalizing Visual Geometry Priors to Sparse Gaussian Occupancy Prediction
作者: Changqing Zhou, Yueru Luo, Changhao Chen
分类: cs.CV
发布日期: 2026-02-25
备注: Accepted by CVPR2026
🔗 代码/项目: GITHUB
💡 一句话要点
GPOcc:利用通用视觉几何先验进行稀疏高斯占据预测
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 3D场景理解 占据预测 视觉几何先验 高斯过程 具身智能
📋 核心要点
- 现有3D占据预测方法依赖深度先验,但缺乏对3D几何信息的有效利用,限制了性能和泛化性。
- GPOcc通过将表面点沿相机光线向内扩展,生成体素样本,并用高斯基元表示,进行概率占据推理。
- 实验表明,GPOcc在单目和流式场景下均显著优于现有方法,且在相同深度先验下,速度更快,精度更高。
📝 摘要(中文)
精确的3D场景理解对于具身智能至关重要,而占据预测是推理物体和自由空间的关键任务。现有方法主要依赖于深度先验(如DepthAnything),但对3D线索的利用有限,限制了性能和泛化能力。最近,VGGT等视觉几何模型在提供丰富的3D先验方面表现出强大的能力,但与单目深度基础模型类似,它们仍然在可见表面层面运行,而不是体素内部,这促使我们探索如何更有效地利用这些日益强大的几何先验进行3D占据预测。我们提出了GPOcc,一个利用通用视觉几何先验(GPs)进行单目占据预测的框架。我们的方法沿着相机光线向内扩展表面点以生成体素样本,这些样本表示为高斯基元,用于概率占据推理。为了处理流式输入,我们进一步设计了一种免训练的增量更新策略,将每帧高斯融合为统一的全局表示。在Occ-ScanNet和EmbodiedOcc-ScanNet上的实验表明,GPOcc取得了显著的提升:在单目设置下,GPOcc的mIoU比现有技术水平提高了+9.99,在流式设置下提高了+11.79。在相同的深度先验下,它实现了+6.73 mIoU,同时运行速度提高了2.65倍。这些结果表明,GPOcc更有效和高效地利用了几何先验。
🔬 方法详解
问题定义:论文旨在解决单目视觉下的3D场景占据预测问题。现有方法依赖深度先验,但对3D几何信息的利用不足,导致预测精度和泛化能力受限。特别是,如何有效利用视觉几何模型提供的3D先验信息,并将其应用于体素内部的占据预测,是一个关键挑战。
核心思路:论文的核心思路是利用通用视觉几何先验(GPs),通过将表面点沿相机光线向内扩展,生成体素样本,并使用高斯基元来表示这些样本。这种方法能够更有效地利用3D几何信息,并进行概率占据推理。通过将体素样本表示为高斯分布,可以更好地模拟不确定性,并提高预测的鲁棒性。
技术框架:GPOcc框架主要包含以下几个阶段:1) 利用视觉几何模型提取3D先验信息;2) 将表面点沿相机光线向内扩展,生成体素样本;3) 使用高斯基元表示体素样本,并进行概率占据推理;4) 对于流式输入,采用免训练的增量更新策略,将每帧高斯融合为统一的全局表示。
关键创新:GPOcc的关键创新在于:1) 提出了一种利用通用视觉几何先验进行3D占据预测的方法,能够更有效地利用3D几何信息;2) 使用高斯基元表示体素样本,并进行概率占据推理,能够更好地模拟不确定性;3) 设计了一种免训练的增量更新策略,能够有效地处理流式输入。与现有方法相比,GPOcc能够更准确、更鲁棒地进行3D占据预测。
关键设计:GPOcc的关键设计包括:1) 如何选择合适的视觉几何模型来提取3D先验信息;2) 如何确定沿相机光线扩展的步长和数量,以生成合适的体素样本;3) 如何设计高斯基元的参数,以准确表示体素样本的占据概率;4) 如何设计增量更新策略,以有效地融合每帧高斯信息。
🖼️ 关键图片
📊 实验亮点
GPOcc在Occ-ScanNet和EmbodiedOcc-ScanNet数据集上取得了显著的性能提升。在单目设置下,GPOcc的mIoU比现有技术水平提高了+9.99,在流式设置下提高了+11.79。在相同的深度先验下,GPOcc实现了+6.73 mIoU,同时运行速度提高了2.65倍。这些结果表明,GPOcc能够更有效和高效地利用几何先验,实现更准确的3D占据预测。
🎯 应用场景
GPOcc在机器人导航、自动驾驶、增强现实等领域具有广泛的应用前景。它可以帮助机器人更好地理解周围环境,从而实现更安全、更高效的导航。在自动驾驶领域,GPOcc可以用于构建高精度的3D地图,提高车辆的感知能力。在增强现实领域,GPOcc可以用于将虚拟物体与真实场景进行更自然的融合,提升用户体验。未来,GPOcc有望成为具身智能的关键技术之一。
📄 摘要(原文)
Accurate 3D scene understanding is essential for embodied intelligence, with occupancy prediction emerging as a key task for reasoning about both objects and free space. Existing approaches largely rely on depth priors (e.g., DepthAnything) but make only limited use of 3D cues, restricting performance and generalization. Recently, visual geometry models such as VGGT have shown strong capability in providing rich 3D priors, but similar to monocular depth foundation models, they still operate at the level of visible surfaces rather than volumetric interiors, motivating us to explore how to more effectively leverage these increasingly powerful geometry priors for 3D occupancy prediction. We present GPOcc, a framework that leverages generalizable visual geometry priors (GPs) for monocular occupancy prediction. Our method extends surface points inward along camera rays to generate volumetric samples, which are represented as Gaussian primitives for probabilistic occupancy inference. To handle streaming input, we further design a training-free incremental update strategy that fuses per-frame Gaussians into a unified global representation. Experiments on Occ-ScanNet and EmbodiedOcc-ScanNet demonstrate significant gains: GPOcc improves mIoU by +9.99 in the monocular setting and +11.79 in the streaming setting over prior state of the art. Under the same depth prior, it achieves +6.73 mIoU while running 2.65$\times$ faster. These results highlight that GPOcc leverages geometry priors more effectively and efficiently. Code will be released at https://github.com/JuIvyy/GPOcc.