Leveling3D: Leveling Up 3D Reconstruction with Feed-Forward 3D Gaussian Splatting and Geometry-Aware Generation
作者: Yiming Huang, Baixiang Huang, Beilei Cui, Chi Kit Ng, Long Bai, Hongliang Ren
分类: cs.CV
发布日期: 2026-03-17
备注: 26 pages, 10 figures
💡 一句话要点
Leveling3D:结合前馈3D高斯溅射与几何感知生成,提升3D重建质量
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 3D重建 新视角合成 扩散模型 几何感知 高斯溅射
📋 核心要点
- 现有前馈3D重建方法在新视角合成中存在外推区域伪影问题,缺乏几何约束。
- Leveling3D通过几何感知 leveling adapter 将扩散模型的知识与前馈模型的几何先验对齐,实现几何一致的生成。
- Leveling3D通过调色板过滤和掩码细化,提升生成质量,并利用增强的新视角反哺3D重建,在多个数据集上取得SOTA性能。
📝 摘要(中文)
本文提出Leveling3D,一个新颖的流水线,它整合了前馈3D重建与几何一致的生成,以实现整体的同时重建和生成。该方法旨在解决现有方法在3D高斯溅射的新视角合成中,对未约束区域进行外推时产生的伪影问题。我们提出了一种几何感知 leveling adapter,这是一种轻量级技术,可以将扩散模型中的内部知识与来自前馈模型的几何先验对齐。leveling adapter 能够对由 3D 表示的欠约束区域引起的外推新视角的伪影区域进行生成。为了学习更多样化的分布式生成,我们引入了调色板过滤策略进行训练,并引入了测试时掩码细化以防止修复区域出现混乱的边界。更重要的是,来自 Leveling3D 的增强外推新视角可以用作前馈 3DGS 的输入,从而提升 3D 重建。我们在公共数据集上实现了 SOTA 性能,包括新视角合成和深度估计等任务。
🔬 方法详解
问题定义:现有基于前馈网络的3D重建方法,在进行新视角合成时,尤其是在外推视角下,由于3D表示的欠约束区域,会产生视觉伪影,导致重建质量下降。之前的研究尝试使用扩散模型修复这些伪影,但缺乏对几何信息的有效利用,导致修复效果不佳,尤其是在缺失区域的填充上表现不足。
核心思路:Leveling3D的核心思路是将前馈3D重建与几何一致的生成相结合,利用前馈模型提供的几何先验知识来指导扩散模型的生成过程,从而生成更真实、几何一致的新视角图像。同时,利用生成的新视角图像反过来提升3D重建的质量,形成一个正反馈的循环。
技术框架:Leveling3D的整体框架包含以下几个主要模块:1) 前馈3D重建模块:使用现有的前馈网络进行初始的3D重建,得到3D高斯表示。2) 新视角合成模块:基于3D高斯表示,渲染生成新视角图像。3) 几何感知 leveling adapter:将前馈模型的几何信息融入到扩散模型中,指导生成过程。4) 扩散模型生成模块:利用扩散模型生成修复后的新视角图像。5) 3D重建优化模块:使用生成的新视角图像优化3D重建结果。
关键创新:Leveling3D的关键创新在于几何感知 leveling adapter,它能够将前馈模型的几何信息(例如深度信息、法向量等)融入到扩散模型中,从而使扩散模型能够生成与几何结构一致的图像。此外,调色板过滤策略和测试时掩码细化进一步提升了生成图像的质量。
关键设计:几何感知 leveling adapter 的具体实现方式未知,但推测可能通过注意力机制或者特征融合的方式,将几何信息融入到扩散模型的中间层特征中。调色板过滤策略用于训练阶段,旨在学习更多样化的生成分布,具体实现方式未知。测试时掩码细化用于防止修复区域出现混乱的边界,具体实现方式未知。
🖼️ 关键图片
📊 实验亮点
Leveling3D在公共数据集上实现了SOTA性能,包括新视角合成和深度估计等任务。具体性能数据未知,但论文强调该方法能够有效修复外推视角下的伪影,并提升3D重建的整体质量。通过与现有方法的对比,Leveling3D在视觉效果和几何一致性方面均有显著提升。
🎯 应用场景
Leveling3D在三维重建、新视角合成、虚拟现实、增强现实等领域具有广泛的应用前景。它可以用于生成高质量的3D模型和新视角图像,提升用户在虚拟环境中的沉浸感和交互体验。此外,该方法还可以应用于自动驾驶、机器人导航等领域,为感知系统提供更准确、更鲁棒的三维信息。
📄 摘要(原文)
Feed-forward 3D reconstruction has revolutionized 3D vision, providing a powerful baseline for downstream tasks such as novel-view synthesis with 3D Gaussian Splatting. Previous works explore fixing the corrupted rendering results with a diffusion model. However, they lack geometric concern and fail at filling the missing area on the extrapolated view. In this work, we introduce Leveling3D, a novel pipeline that integrates feed-forward 3D reconstruction with geometrical-consistent generation to enable holistic simultaneous reconstruction and generation. We propose a geometry-aware leveling adapter, a lightweight technique that aligns internal knowledge in the diffusion model with the geometry prior from the feed-forward model. The leveling adapter enables generation on the artifact area of the extrapolated novel views caused by underconstrained regions of the 3D representation. Specifically, to learn a more diverse distributed generation, we introduce the palette filtering strategy for training, and a test-time masking refinement to prevent messy boundaries along the fixing regions. More importantly, the enhanced extrapolated novel views from Leveling3D could be used as the inputs for feed-forward 3DGS, leveling up the 3D reconstruction. We achieve SOTA performance on public datasets, including tasks such as novel-view synthesis and depth estimation.