Leveling3D: Leveling Up 3D Reconstruction with Feed-Forward 3D Gaussian Splatting and Geometry-Aware Generation

作者: Yiming Huang, Baixiang Huang, Beilei Cui, Chi Kit Ng, Long Bai, Hongliang Ren

分类: cs.CV

发布日期: 2026-03-17

备注: 26 pages, 10 figures

💡 一句话要点

Leveling3D：结合前馈3D高斯溅射与几何感知生成，提升3D重建质量

🎯 匹配领域: 支柱三：空间感知与语义 (Perception & Semantics)

关键词: 3D重建 新视角合成 扩散模型 几何感知 高斯溅射

📋 核心要点

现有前馈3D重建方法在新视角合成中存在外推区域伪影问题，缺乏几何约束。
Leveling3D通过几何感知 leveling adapter 将扩散模型的知识与前馈模型的几何先验对齐，实现几何一致的生成。
Leveling3D通过调色板过滤和掩码细化，提升生成质量，并利用增强的新视角反哺3D重建，在多个数据集上取得SOTA性能。

📝 摘要（中文）

本文提出Leveling3D，一个新颖的流水线，它整合了前馈3D重建与几何一致的生成，以实现整体的同时重建和生成。该方法旨在解决现有方法在3D高斯溅射的新视角合成中，对未约束区域进行外推时产生的伪影问题。我们提出了一种几何感知 leveling adapter，这是一种轻量级技术，可以将扩散模型中的内部知识与来自前馈模型的几何先验对齐。leveling adapter 能够对由 3D 表示的欠约束区域引起的外推新视角的伪影区域进行生成。为了学习更多样化的分布式生成，我们引入了调色板过滤策略进行训练，并引入了测试时掩码细化以防止修复区域出现混乱的边界。更重要的是，来自 Leveling3D 的增强外推新视角可以用作前馈 3DGS 的输入，从而提升 3D 重建。我们在公共数据集上实现了 SOTA 性能，包括新视角合成和深度估计等任务。

🔬 方法详解

问题定义：现有基于前馈网络的3D重建方法，在进行新视角合成时，尤其是在外推视角下，由于3D表示的欠约束区域，会产生视觉伪影，导致重建质量下降。之前的研究尝试使用扩散模型修复这些伪影，但缺乏对几何信息的有效利用，导致修复效果不佳，尤其是在缺失区域的填充上表现不足。

核心思路：Leveling3D的核心思路是将前馈3D重建与几何一致的生成相结合，利用前馈模型提供的几何先验知识来指导扩散模型的生成过程，从而生成更真实、几何一致的新视角图像。同时，利用生成的新视角图像反过来提升3D重建的质量，形成一个正反馈的循环。

技术框架：Leveling3D的整体框架包含以下几个主要模块：1) 前馈3D重建模块：使用现有的前馈网络进行初始的3D重建，得到3D高斯表示。2) 新视角合成模块：基于3D高斯表示，渲染生成新视角图像。3) 几何感知 leveling adapter：将前馈模型的几何信息融入到扩散模型中，指导生成过程。4) 扩散模型生成模块：利用扩散模型生成修复后的新视角图像。5) 3D重建优化模块：使用生成的新视角图像优化3D重建结果。

关键创新：Leveling3D的关键创新在于几何感知 leveling adapter，它能够将前馈模型的几何信息（例如深度信息、法向量等）融入到扩散模型中，从而使扩散模型能够生成与几何结构一致的图像。此外，调色板过滤策略和测试时掩码细化进一步提升了生成图像的质量。

关键设计：几何感知 leveling adapter 的具体实现方式未知，但推测可能通过注意力机制或者特征融合的方式，将几何信息融入到扩散模型的中间层特征中。调色板过滤策略用于训练阶段，旨在学习更多样化的生成分布，具体实现方式未知。测试时掩码细化用于防止修复区域出现混乱的边界，具体实现方式未知。

🖼️ 关键图片

📊 实验亮点

Leveling3D在公共数据集上实现了SOTA性能，包括新视角合成和深度估计等任务。具体性能数据未知，但论文强调该方法能够有效修复外推视角下的伪影，并提升3D重建的整体质量。通过与现有方法的对比，Leveling3D在视觉效果和几何一致性方面均有显著提升。

🎯 应用场景

Leveling3D在三维重建、新视角合成、虚拟现实、增强现实等领域具有广泛的应用前景。它可以用于生成高质量的3D模型和新视角图像，提升用户在虚拟环境中的沉浸感和交互体验。此外，该方法还可以应用于自动驾驶、机器人导航等领域，为感知系统提供更准确、更鲁棒的三维信息。

📄 摘要（原文）

Feed-forward 3D reconstruction has revolutionized 3D vision, providing a powerful baseline for downstream tasks such as novel-view synthesis with 3D Gaussian Splatting. Previous works explore fixing the corrupted rendering results with a diffusion model. However, they lack geometric concern and fail at filling the missing area on the extrapolated view. In this work, we introduce Leveling3D, a novel pipeline that integrates feed-forward 3D reconstruction with geometrical-consistent generation to enable holistic simultaneous reconstruction and generation. We propose a geometry-aware leveling adapter, a lightweight technique that aligns internal knowledge in the diffusion model with the geometry prior from the feed-forward model. The leveling adapter enables generation on the artifact area of the extrapolated novel views caused by underconstrained regions of the 3D representation. Specifically, to learn a more diverse distributed generation, we introduce the palette filtering strategy for training, and a test-time masking refinement to prevent messy boundaries along the fixing regions. More importantly, the enhanced extrapolated novel views from Leveling3D could be used as the inputs for feed-forward 3DGS, leveling up the 3D reconstruction. We achieve SOTA performance on public datasets, including tasks such as novel-view synthesis and depth estimation.

Leveling3D: Leveling Up 3D Reconstruction with Feed-Forward 3D Gaussian Splatting and Geometry-Aware Generation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理