MVGSR: Multi-View Consistent 3D Gaussian Super-Resolution via Epipolar Guidance
作者: Kaizhe Zhang, Shinan Chen, Qian Zhao, Weizhan Zhang, Caixia Yan, Yudeng Xin
分类: cs.CV
发布日期: 2025-12-17
备注: 9 pages, 7 figures
💡 一句话要点
提出MVGSR,通过极线引导实现多视角一致的3D高斯超分辨率重建
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱七:动作重定向 (Motion Retargeting)
关键词: 3D高斯溅射 超分辨率 多视角一致性 极线几何 注意力机制
📋 核心要点
- 现有3DGS超分辨率方法缺乏跨视角一致性,难以有效融合多视角信息,限制了重建质量。
- MVGSR通过相机姿态选择辅助视图,并引入极线约束的多视角注意力机制,选择性聚合一致信息。
- 实验表明,MVGSR在对象和场景级3DGS超分辨率任务上均达到了state-of-the-art的性能。
📝 摘要(中文)
本文提出了一种多视角一致的3D高斯超分辨率(MVGSR)框架,旨在解决低分辨率图像训练的3D高斯溅射(3DGS)场景不适用于高分辨率渲染的问题。现有3DGS超分辨率方法依赖于单图像超分辨率网络,缺乏跨视角一致性,无法融合多视角互补信息。虽然基于视频的超分辨率方法有所改进,但需要严格的连续帧,限制了其在非结构化多视角数据集上的应用。MVGSR通过整合多视角信息,实现具有高频细节和增强一致性的3DGS渲染。该方法首先提出了一种基于相机姿态的辅助视图选择方法,使其适用于任意组织的多视角数据集,无需时序连续性或数据重排序。其次,首次将极线约束的多视角注意力机制引入3DGS超分辨率,作为多视角超分辨率网络的核心,选择性地聚合来自辅助视图的一致信息,增强3DGS表示的几何一致性和细节保真度。大量实验表明,该方法在以对象为中心和场景级的3DGS超分辨率基准测试中均取得了最先进的性能。
🔬 方法详解
问题定义:论文旨在解决从低分辨率图像重建的3D高斯溅射(3DGS)模型在高分辨率渲染时效果不佳的问题。现有的单视角超分辨率方法无法有效利用多视角信息,导致重建结果缺乏跨视角一致性,细节不足。基于视频的超分辨率方法虽然考虑了多帧信息,但对输入数据的时序性要求较高,难以应用于非结构化的多视角数据集。
核心思路:论文的核心思路是利用多视角信息来提升3DGS的超分辨率重建质量,同时保证跨视角的一致性。通过引入基于相机姿态的辅助视图选择机制,以及极线约束的多视角注意力机制,模型能够选择性地聚合来自不同视角的互补信息,从而提升重建结果的细节丰富度和几何一致性。
技术框架:MVGSR框架主要包含以下几个阶段:1) 辅助视图选择:根据相机姿态信息,为每个目标视角选择若干个辅助视角。2) 特征提取:对目标视角和辅助视角的低分辨率图像进行特征提取。3) 极线约束多视角注意力:利用极线几何约束,计算目标视角和辅助视角特征之间的注意力权重,从而选择性地聚合辅助视角的信息。4) 超分辨率重建:利用聚合后的多视角特征,对3DGS进行超分辨率重建,得到高分辨率的3DGS表示。
关键创新:论文的关键创新在于:1) 提出了基于相机姿态的辅助视图选择方法,使其能够处理任意组织的多视角数据集。2) 首次将极线约束的多视角注意力机制引入3DGS超分辨率任务中,从而有效地利用多视角信息,提升重建质量。
关键设计:辅助视图选择方法基于相机姿态的相似度进行选择,选择与目标视角相机姿态最接近的几个视角作为辅助视角。极线约束多视角注意力机制通过计算目标视角和辅助视角特征之间的极线距离,来约束注意力权重的计算,从而保证聚合的信息具有几何一致性。损失函数包括重建损失、感知损失和正则化损失,用于保证重建结果的质量和一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MVGSR在多个3DGS超分辨率基准测试中取得了state-of-the-art的性能。例如,在对象级别的测试中,MVGSR相比于现有方法,在PSNR指标上提升了超过1dB,在SSIM指标上也有显著提升。在场景级别的测试中,MVGSR同样取得了优异的性能,证明了其在复杂场景下的有效性。
🎯 应用场景
MVGSR技术可应用于三维重建、虚拟现实、增强现实等领域。例如,可以利用该技术将低分辨率的城市街景图像重建为高分辨率的三维模型,从而提升用户在虚拟现实环境中的沉浸感。此外,该技术还可以应用于文物保护领域,将低分辨率的文物照片重建为高分辨率的三维模型,方便研究和展示。
📄 摘要(原文)
Scenes reconstructed by 3D Gaussian Splatting (3DGS) trained on low-resolution (LR) images are unsuitable for high-resolution (HR) rendering. Consequently, a 3DGS super-resolution (SR) method is needed to bridge LR inputs and HR rendering. Early 3DGS SR methods rely on single-image SR networks, which lack cross-view consistency and fail to fuse complementary information across views. More recent video-based SR approaches attempt to address this limitation but require strictly sequential frames, limiting their applicability to unstructured multi-view datasets. In this work, we introduce Multi-View Consistent 3D Gaussian Splatting Super-Resolution (MVGSR), a framework that focuses on integrating multi-view information for 3DGS rendering with high-frequency details and enhanced consistency. We first propose an Auxiliary View Selection Method based on camera poses, making our method adaptable for arbitrarily organized multi-view datasets without the need of temporal continuity or data reordering. Furthermore, we introduce, for the first time, an epipolar-constrained multi-view attention mechanism into 3DGS SR, which serves as the core of our proposed multi-view SR network. This design enables the model to selectively aggregate consistent information from auxiliary views, enhancing the geometric consistency and detail fidelity of 3DGS representations. Extensive experiments demonstrate that our method achieves state-of-the-art performance on both object-centric and scene-level 3DGS SR benchmarks.