SR3R: Rethinking Super-Resolution 3D Reconstruction With Feed-Forward Gaussian Splatting

📄 arXiv: 2602.24020v1 📥 PDF

作者: Xiang Feng, Xiangbo Wang, Tieshi Zhong, Chengkai Wang, Yiting Zhao, Tianxiang Xu, Zhenzhong Kuang, Feiwei Qin, Xuefei Yin, Yanming Zhu

分类: cs.CV

发布日期: 2026-02-27

备注: CVPR 2026


💡 一句话要点

提出SR3R,通过前馈高斯溅射实现3D超分辨率重建,提升泛化性和实时性。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D超分辨率 高斯溅射 前馈网络 三维重建 零样本学习

📋 核心要点

  1. 现有3D超分辨率方法依赖密集低分辨率输入和逐场景优化,限制了高频信息的获取,泛化性差。
  2. SR3R将3D超分辨率重构定义为从稀疏低分辨率视图到高分辨率3D高斯溅射表示的直接前馈映射。
  3. 实验表明,SR3R在多个3D基准测试中超越了现有SOTA方法,并实现了强大的零样本泛化能力。

📝 摘要(中文)

本文提出了一种新的3D超分辨率(3DSR)方法,旨在从低分辨率(LR)多视角图像重建高分辨率(HR) 3D场景。现有方法依赖于密集的LR输入和逐场景优化,这限制了用于构建HR 3D高斯溅射(3DGS)的高频先验,使其仅能从预训练的2D超分辨率(2DSR)模型中继承。这严重限制了重建的保真度、跨场景泛化能力和实时可用性。我们重新将3DSR定义为从稀疏LR视图到HR 3DGS表示的直接前馈映射,使模型能够自主地从大规模多场景数据中学习3D特定的高频几何和外观信息。这从根本上改变了3DSR获取高频知识的方式,并实现了对未见场景的鲁棒泛化。具体来说,我们引入了SR3R,一个前馈框架,通过学习的映射网络直接从稀疏LR视图预测HR 3DGS表示。为了进一步提高重建保真度,我们引入了高斯偏移学习和特征细化,从而稳定重建并锐化高频细节。SR3R是即插即用的,可以与任何前馈3DGS重建骨干网络配对:骨干网络提供LR 3DGS支架,SR3R将其放大到HR 3DGS。在三个3D基准上的大量实验表明,SR3R超越了最先进的(SOTA) 3DSR方法,并实现了强大的零样本泛化,甚至在未见场景上优于SOTA逐场景优化方法。

🔬 方法详解

问题定义:现有3D超分辨率方法依赖于密集的低分辨率输入,并且需要逐场景进行优化。这种方式限制了模型学习3D场景特有的高频信息,导致重建质量受限于预训练的2D超分辨率模型,泛化能力较弱,且难以实现实时应用。

核心思路:SR3R的核心思路是将3D超分辨率问题转化为一个直接的前馈映射问题,即从稀疏的低分辨率图像直接预测高分辨率的3D高斯溅射表示。通过在大规模多场景数据上训练,模型能够自主学习3D场景特有的高频几何和外观信息,从而摆脱对2D超分辨率模型的依赖,提高泛化能力。

技术框架:SR3R框架包含一个学习的映射网络,该网络接收稀疏的低分辨率图像作为输入,并直接预测高分辨率的3D高斯溅射表示。该框架可以与任何前馈3D高斯溅射重建骨干网络结合使用。骨干网络提供一个低分辨率的3D高斯溅射支架,SR3R则负责将其提升到高分辨率。此外,框架还包括高斯偏移学习和特征细化模块,用于稳定重建过程并锐化高频细节。

关键创新:SR3R的关键创新在于将3D超分辨率问题重新定义为一个前馈映射问题,从而使模型能够自主学习3D场景特有的高频信息,摆脱了对2D超分辨率模型的依赖。此外,高斯偏移学习和特征细化模块进一步提升了重建质量。

关键设计:SR3R的具体网络结构和损失函数细节在论文中未详细说明,但关键在于如何设计映射网络,使其能够有效地从低分辨率图像中提取并生成高分辨率的3D高斯溅射参数。高斯偏移学习可能涉及到预测高斯分布参数的偏移量,以更好地拟合高分辨率场景。特征细化模块可能采用残差连接或注意力机制等方法,以增强高频细节的重建。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SR3R在三个3D基准测试中均超越了现有的SOTA 3D超分辨率方法,并且实现了强大的零样本泛化能力,甚至在未见过的场景中也优于SOTA的逐场景优化方法。具体的性能提升数据未知,但结果表明SR3R在重建质量和泛化能力方面都具有显著优势。

🎯 应用场景

SR3R在三维重建、虚拟现实、增强现实、自动驾驶等领域具有广泛的应用前景。它可以用于从低质量或稀疏的图像数据中重建高质量的3D场景,提高用户体验和应用性能。例如,在自动驾驶中,可以利用SR3R从低分辨率的摄像头图像中重建高分辨率的3D环境地图,从而提高车辆的感知能力和安全性。

📄 摘要(原文)

3D super-resolution (3DSR) aims to reconstruct high-resolution (HR) 3D scenes from low-resolution (LR) multi-view images. Existing methods rely on dense LR inputs and per-scene optimization, which restricts the high-frequency priors for constructing HR 3D Gaussian Splatting (3DGS) to those inherited from pretrained 2D super-resolution (2DSR) models. This severely limits reconstruction fidelity, cross-scene generalization, and real-time usability. We propose to reformulate 3DSR as a direct feed-forward mapping from sparse LR views to HR 3DGS representations, enabling the model to autonomously learn 3D-specific high-frequency geometry and appearance from large-scale, multi-scene data. This fundamentally changes how 3DSR acquires high-frequency knowledge and enables robust generalization to unseen scenes. Specifically, we introduce SR3R, a feed-forward framework that directly predicts HR 3DGS representations from sparse LR views via the learned mapping network. To further enhance reconstruction fidelity, we introduce Gaussian offset learning and feature refinement, which stabilize reconstruction and sharpen high-frequency details. SR3R is plug-and-play and can be paired with any feed-forward 3DGS reconstruction backbone: the backbone provides an LR 3DGS scaffold, and SR3R upscales it to an HR 3DGS. Extensive experiments across three 3D benchmarks demonstrate that SR3R surpasses state-of-the-art (SOTA) 3DSR methods and achieves strong zero-shot generalization, even outperforming SOTA per-scene optimization methods on unseen scenes.