Gaussian-Voxel Duet: A Dual-Scaffolding Hybrid Representation for Fast and Accurate Monocular Surface Reconstruction

📄 arXiv: 2605.26616v1 📥 PDF

作者: Zhenhua Du, Zhen Tan, Haoyu Zhang, Dewen Hu, Shuaifeng Zhi, Peidong Liu

分类: cs.CV

发布日期: 2026-05-26

备注: 27 pages, 14 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出Gaussian-Voxel Duet,用于快速、精确的单目表面重建。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 单目重建 三维重建 高斯溅射 体素SDF 混合表示

📋 核心要点

  1. 现有方法在几何精度和优化效率之间存在权衡,图像渲染方法收敛快但几何不完美,而集成神经SDF的方法几何好但训练成本高昂。
  2. Gaussian-Voxel Duet将支架锚定的高斯函数与稀疏体素支架联合优化,限制高斯函数在SDF定义的表面附近,提高表示效率。
  3. 实验表明,该方法在表面重建质量和新视角合成方面优于现有方法,同时保持了快速的训练收敛和实时渲染。

📝 摘要(中文)

本文提出了一种混合的高斯-体素表示方法,称为Gaussian-Voxel Duet,旨在实现快速且高保真的3D重建。该方法将支架锚定的高斯函数与联合优化的稀疏体素支架相结合。这种混合表示显式地将锚定的高斯函数限制在由体素化SDF定义的表面周围的窄带内,从而有效地提高了表示效率,并在不牺牲几何质量的情况下压缩了浮动高斯函数。隐式表面连接损失进一步将单个高斯基元拉近到SDF诱导的表面,以相互正则化的方式提高重建精度。在ScanNet++、ScanNetv2和DeepBlending数据集上的大量实验表明,该方法实现了最先进的表面重建质量和优越的新视角合成效果,同时保持了快速的训练收敛和实时渲染。

🔬 方法详解

问题定义:现有的基于3D高斯溅射的方法在单目表面重建中面临几何精度和优化效率的权衡问题。专注于图像渲染的方法虽然收敛速度快,但由于过多的图元过度拟合训练视图,导致几何形状不完善。而集成神经符号距离场(SDF)的方法虽然可以获得更好的几何形状,但训练成本非常高昂。

核心思路:本文的核心思路是将3D高斯溅射与体素化的SDF相结合,构建一种混合表示。通过将高斯函数锚定到由体素SDF定义的表面附近,可以有效地约束高斯函数的位置,从而提高表示效率,并在不牺牲几何质量的情况下压缩浮动高斯函数。

技术框架:该方法包含两个主要组成部分:基于高斯溅射的场景表示和基于体素SDF的几何约束。首先,使用高斯溅射来表示场景的表面。然后,使用体素化的SDF来定义场景的几何形状。最后,通过一个隐式的表面连接损失,将高斯函数拉近到SDF诱导的表面。整体流程是联合优化高斯溅射和体素SDF,从而实现快速且精确的表面重建。

关键创新:该方法最重要的创新点在于提出了Gaussian-Voxel Duet混合表示。这种表示方法结合了高斯溅射的渲染效率和体素SDF的几何精度,从而在几何精度和优化效率之间取得了更好的平衡。与现有方法相比,该方法不需要大量的训练数据或计算资源,就可以实现高质量的表面重建。

关键设计:该方法使用稀疏体素结构来表示SDF,以减少内存占用。隐式表面连接损失被设计为将高斯函数拉向SDF定义的表面,从而提高重建精度。损失函数包含渲染损失、SDF损失和表面连接损失。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在ScanNet++、ScanNetv2和DeepBlending数据集上进行了评估,实验结果表明,该方法在表面重建质量和新视角合成方面均优于现有方法。具体性能数据未知,但论文强调了在保持快速训练收敛和实时渲染的同时,实现了最先进的表面重建质量。

🎯 应用场景

该研究成果可应用于三维场景重建、虚拟现实、增强现实、机器人导航等领域。例如,可以利用该方法快速重建室内场景的三维模型,用于虚拟现实体验或机器人导航。此外,该方法还可以用于医学图像重建,帮助医生进行疾病诊断和治疗。

📄 摘要(原文)

While 3D Gaussian Splatting has achieved remarkable success in photorealistic novel view synthesis, its pursuit of fast and high-fidelity 3D reconstruction has long been constrained by a trade-off between geometric accuracy and optimization efficiency. Methods specialized in image rendering converge quickly at the cost of imperfect geometry caused by superfluous primitives overfitting training views, while methods integrating neural signed-distance field (SDF) for better geometry incur prohibitive training costs. In this paper, we attempt to strike a better trade-off by tethering scaffold-anchored Gaussians to a jointly optimized sparse voxel scaffold. This hybrid Gaussian-Voxel representation explicitly confines anchored Gaussians to a narrow band around surfaces defined by voxelized SDFs, which effectively improves representation efficiency and condenses floating Gaussians without sacrificing geometry quality. An implicit surface tethering loss further pulls individual Gaussian primitives closer to SDF-induced surfaces in a mutually regularized manner for improved reconstruction accuracy. Extensive experiments on diverse real-world indoor scenes from ScanNet++, ScanNetv2, and DeepBlending datasets demonstrate that our method achieves state-of-the-art surface reconstruction quality as well as superior novel view synthesis against leading baselines, while maintaining fast training convergence and real-time rendering. Code will be available at https://github.com/duzh11/VoxelGS.