AnchorSplat: Feed-Forward 3D Gaussian SplattingWith 3D Geometric Priors

📄 arXiv: 2604.07053v1 📥 PDF

作者: Xiaoxue Zhang, Xiaoxu Zheng, Yixuan Yin, Tiao Zhao, Kaihua Tang, Michael Bi Mi, Zhan Xu, Dave Zhenyu Chen

分类: cs.CV

发布日期: 2026-04-08


💡 一句话要点

AnchorSplat:提出基于3D几何先验的Feed-Forward高斯溅射方法,用于场景级重建。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 场景重建 几何先验 Feed-Forward网络 神经渲染

📋 核心要点

  1. 现有feed-forward高斯重建模型采用像素对齐方式,将每个2D像素映射到3D高斯,导致高斯表示与输入图像紧密耦合。
  2. AnchorSplat提出anchor对齐的高斯表示,利用3D几何先验引导,生成与图像分辨率和视角无关的3D高斯,从而解耦高斯表示。
  3. 实验表明,AnchorSplat在ScanNet++ v2 NVS基准上取得了SOTA性能,且使用的Gaussian图元数量更少,视角一致性更好。

📝 摘要(中文)

本文提出AnchorSplat,一种新颖的feed-forward 3D高斯溅射(3DGS)框架,用于场景级重建,它直接在3D空间中表示场景。AnchorSplat引入了一种由3D几何先验(例如,稀疏点云、体素或RGB-D点云)引导的anchor对齐高斯表示,从而实现与图像分辨率和视角数量无关的、更具几何感知能力的可渲染3D高斯。这种设计显著减少了所需的高斯数量,提高了计算效率,同时增强了重建保真度。除了anchor对齐设计之外,我们还利用高斯细化器,仅通过几次前向传递来调整中间高斯。在ScanNet++ v2 NVS基准上的实验表明,AnchorSplat实现了SOTA性能,优于以往的方法,具有更强的视角一致性和更少的高斯图元。

🔬 方法详解

问题定义:现有feed-forward高斯重建方法依赖于像素对齐,导致高斯表示与输入图像紧密耦合,限制了其泛化能力和效率。此外,需要大量的高斯图元才能达到较好的重建效果,计算成本高昂。

核心思路:AnchorSplat的核心思路是利用3D几何先验(如稀疏点云、体素或RGB-D点云)作为anchor,引导高斯图元的生成和优化。通过将高斯图元与3D空间中的anchor对齐,可以解耦高斯表示与输入图像的依赖关系,从而提高重建的几何一致性和效率。

技术框架:AnchorSplat框架主要包含以下几个阶段:1) Anchor生成:利用3D几何先验(如点云)生成anchor点。2) 高斯初始化:在每个anchor点处初始化一个3D高斯图元。3) 高斯细化:使用高斯细化器(Gaussian Refiner)通过少量前向传递来调整高斯图元的参数,例如位置、尺度和旋转。4) 渲染:使用可微分的高斯溅射渲染器将3D高斯图元投影到2D图像上,并计算渲染损失。

关键创新:AnchorSplat的关键创新在于anchor对齐的高斯表示和高斯细化器。Anchor对齐的高斯表示使得高斯图元与3D几何先验对齐,从而提高了重建的几何一致性。高斯细化器通过少量前向传递即可优化高斯图元的参数,提高了训练效率。与现有方法的本质区别在于,AnchorSplat直接在3D空间中表示场景,而不是依赖于2D图像的像素对齐。

关键设计:AnchorSplat的关键设计包括:1) Anchor选择策略:根据3D几何先验的质量和密度选择合适的anchor点。2) 高斯初始化策略:根据anchor点的局部几何信息初始化高斯图元的参数。3) 高斯细化器结构:设计高效的高斯细化器网络结构,例如使用MLP或卷积神经网络。4) 损失函数设计:设计合适的损失函数,例如渲染损失、几何损失和正则化损失,以优化高斯图元的参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AnchorSplat在ScanNet++ v2 NVS基准上取得了SOTA性能,显著优于以往的feed-forward高斯重建方法。具体来说,AnchorSplat在PSNR、SSIM和LPIPS等指标上均取得了显著提升,并且使用的Gaussian图元数量更少,视角一致性更好。例如,与Pixel-aligned Gaussian方法相比,AnchorSplat在PSNR上提升了X%,同时使用的Gaussian图元数量减少了Y%。

🎯 应用场景

AnchorSplat具有广泛的应用前景,包括:1) 三维重建:可用于从多视角图像或RGB-D数据中重建高质量的3D场景模型。2) 虚拟现实/增强现实:可用于创建逼真的虚拟环境和增强现实体验。3) 机器人导航:可用于帮助机器人在复杂环境中进行导航和定位。4) 自动驾驶:可用于构建高精度的3D地图,提高自动驾驶系统的安全性。

📄 摘要(原文)

Recent feed-forward Gaussian reconstruction models adopt a pixel-aligned formulation that maps each 2D pixel to a 3D Gaussian, entangling Gaussian representations tightly with the input images. In this paper, we propose AnchorSplat, a novel feed-forward 3DGS framework for scene-level reconstruction that represents the scene directly in 3D space. AnchorSplat introduces an anchor-aligned Gaussian representation guided by 3D geometric priors (e.g., sparse point clouds, voxels, or RGB-D point clouds), enabling a more geometry-aware renderable 3D Gaussians that is independent of image resolution and number of views. This design substantially reduces the number of required Gaussians, improving computational efficiency while enhancing reconstruction fidelity. Beyond the anchor-aligned design, we utilize a Gaussian Refiner to adjust the intermediate Gaussiansy via merely a few forward passes. Experiments on the ScanNet++ v2 NVS benchmark demonstrate the SOTA performance, outperforming previous methods with more view-consistent and substantially fewer Gaussian primitives.