SplatSuRe: Selective Super-Resolution for Multi-view Consistent 3D Gaussian Splatting

📄 arXiv: 2512.02172v1 📥 PDF

作者: Pranav Asthana, Alex Hanson, Allen Tu, Tom Goldstein, Matthias Zwicker, Amitabh Varshney

分类: cs.CV, cs.GR, cs.LG

发布日期: 2025-12-01

备注: Project Page: https://splatsure.github.io/


💡 一句话要点

SplatSuRe:针对多视角一致性3D高斯溅射的选择性超分辨率方法

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 3D高斯溅射 超分辨率 多视角一致性 新视角合成 选择性渲染

📋 核心要点

  1. 现有超分辨率方法在3D高斯溅射中直接应用会导致多视角不一致,产生模糊渲染。
  2. SplatSuRe的核心思想是根据相机姿态和场景几何,选择性地在欠采样区域应用超分辨率。
  3. 实验表明,SplatSuRe在多个数据集上超越了现有基线,尤其在局部前景区域提升显著。

📝 摘要(中文)

3D高斯溅射(3DGS)能够实现高质量的新视角合成,激发了人们对生成比训练期间可用分辨率更高的渲染图的兴趣。一个直接的策略是对低分辨率(LR)输入视图应用超分辨率(SR),但独立增强每个图像会引入多视角不一致性,导致渲染模糊。先前的方法试图通过学习到的神经组件、时间一致的视频先验或LR和SR视图上的联合优化来缓解这些不一致性,但所有方法都在每个图像上统一应用SR。相反,我们的关键见解是,近距离LR视图可能包含远处视图也捕获的区域的高频信息,并且我们可以使用相机姿态相对于场景几何体来告知在哪里添加SR内容。基于这一见解,我们提出SplatSuRe,一种仅在缺乏高频监督的欠采样区域选择性地应用SR内容的方法,从而产生更清晰和更一致的结果。在Tanks & Temples、Deep Blending和Mip-NeRF 360上,我们的方法在保真度和感知质量方面都超过了基线。值得注意的是,我们的收益在需要更高细节的局部前景区域最为显著。

🔬 方法详解

问题定义:论文旨在解决3D高斯溅射中,直接对低分辨率图像进行超分辨率处理时,由于多视角不一致性导致的渲染模糊问题。现有方法要么统一应用超分辨率,要么通过复杂的学习机制来缓解不一致性,但效果有限,且计算成本较高。

核心思路:论文的核心思路是并非所有区域都需要超分辨率,而是应该根据视角和场景几何,选择性地对缺乏高频信息的欠采样区域进行超分辨率增强。通过分析不同视角下同一区域的分辨率,避免对已经具有足够细节的区域进行过度增强,从而减少多视角不一致性。

技术框架:SplatSuRe方法主要包含以下几个阶段:1) 对低分辨率输入图像进行初步渲染;2) 分析每个像素在不同视角下的采样率和高频信息;3) 根据分析结果,选择性地对欠采样区域应用超分辨率;4) 将超分辨率后的图像用于最终的3D高斯溅射渲染。

关键创新:SplatSuRe最重要的创新点在于其选择性超分辨率策略。与现有方法不同,SplatSuRe不是盲目地对所有图像区域进行超分辨率,而是根据视角和场景几何,智能地判断哪些区域需要增强,哪些区域已经足够清晰。这种选择性策略能够有效地减少多视角不一致性,提高渲染质量。

关键设计:SplatSuRe的关键设计包括:1) 使用相机姿态和深度信息来估计每个像素的采样率;2) 设计一个自适应的超分辨率模块,根据采样率和高频信息,调整超分辨率的强度;3) 使用多视角一致性损失函数来进一步约束超分辨率的结果,确保不同视角下的渲染结果尽可能一致。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SplatSuRe在Tanks & Temples、Deep Blending和Mip-NeRF 360等数据集上进行了评估,实验结果表明,SplatSuRe在保真度和感知质量方面均优于现有基线方法。尤其在局部前景区域,SplatSuRe的提升最为显著,能够生成更清晰、更逼真的渲染结果。定量指标和视觉效果均验证了SplatSuRe的有效性。

🎯 应用场景

SplatSuRe可应用于各种需要高质量新视角合成的场景,例如虚拟现实、增强现实、游戏开发和电影制作。通过提高渲染质量和减少多视角不一致性,SplatSuRe能够提供更逼真、更沉浸式的用户体验。该方法还有潜力应用于遥感图像处理、医学图像分析等领域,提升图像的分辨率和清晰度。

📄 摘要(原文)

3D Gaussian Splatting (3DGS) enables high-quality novel view synthesis, motivating interest in generating higher-resolution renders than those available during training. A natural strategy is to apply super-resolution (SR) to low-resolution (LR) input views, but independently enhancing each image introduces multi-view inconsistencies, leading to blurry renders. Prior methods attempt to mitigate these inconsistencies through learned neural components, temporally consistent video priors, or joint optimization on LR and SR views, but all uniformly apply SR across every image. In contrast, our key insight is that close-up LR views may contain high-frequency information for regions also captured in more distant views, and that we can use the camera pose relative to scene geometry to inform where to add SR content. Building from this insight, we propose SplatSuRe, a method that selectively applies SR content only in undersampled regions lacking high-frequency supervision, yielding sharper and more consistent results. Across Tanks & Temples, Deep Blending and Mip-NeRF 360, our approach surpasses baselines in both fidelity and perceptual quality. Notably, our gains are most significant in localized foreground regions where higher detail is desired.