Generalized and Efficient 2D Gaussian Splatting for Arbitrary-scale Super-Resolution

📄 arXiv: 2501.06838v5 📥 PDF

作者: Du Chen, Liyi Chen, Zhengqiang Zhang, Lei Zhang

分类: eess.IV, cs.CV

发布日期: 2025-01-12 (更新: 2025-07-30)

备注: Accepted by ICCV 2025

🔗 代码/项目: GITHUB


💡 一句话要点

提出GSASR,利用广义高效的2D高斯溅射实现任意尺度超分辨率重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 超分辨率 高斯溅射 隐式神经表示 可微渲染 图像重建

📋 核心要点

  1. 现有基于INR的超分辨率方法计算效率低,且表征能力有限,难以满足高质量重建需求。
  2. 论文提出GSASR,通过预测图像条件高斯分布来表征图像,并利用可微光栅化进行高效渲染。
  3. 实验表明,GSASR在任意尺度超分辨率任务上表现出色,能够泛化到不同的图像和缩放因子。

📝 摘要(中文)

隐式神经表示(INR)已成功应用于任意尺度超分辨率(ASR)任务。然而,基于INR的模型需要多次查询多层感知机模块,并在每次查询中渲染一个像素,导致表征能力不足和计算效率低下。最近,高斯溅射(GS)在3D任务中显示出优于INR的视觉质量和渲染速度,这促使我们探索GS是否可以用于ASR任务。然而,直接将GS应用于ASR极具挑战性,因为原始GS是一种通过过度拟合每个单独场景的基于优化的方法,而在ASR中,我们的目标是学习一个可以泛化到不同图像和缩放因子的单一模型。我们通过开发两种新技术克服了这些挑战。首先,为了推广GS用于ASR,我们精心设计了一个架构,以正向馈送的方式预测输入低分辨率图像对应的图像条件高斯分布。每个高斯分布都可以拟合复杂纹理区域的形状和方向,显示出强大的表征能力。其次,我们实现了一种高效的可微2D GPU/CUDA加速的尺度感知光栅化,通过从预测的连续高斯分布中采样离散RGB值来渲染超分辨率图像。通过端到端训练,我们优化的网络GSASR可以对任何图像和未见过的缩放因子执行ASR。大量的实验验证了我们提出的方法的有效性。

🔬 方法详解

问题定义:现有基于隐式神经表示(INR)的任意尺度超分辨率(ASR)方法,需要多次查询MLP,计算量大,效率低,且表征能力有限,难以捕捉图像的复杂纹理细节。原始的高斯溅射(GS)方法依赖于对单个场景的过拟合优化,无法直接泛化到不同的图像和缩放因子。

核心思路:论文的核心思路是将高斯溅射(GS)方法推广到任意尺度超分辨率任务中。通过学习一个能够预测图像条件高斯分布的网络,使得每个高斯分布可以拟合图像的局部纹理特征,从而实现高效且高质量的图像重建。同时,通过可微光栅化实现快速渲染。

技术框架:GSASR的整体框架包括:1)一个用于预测图像条件高斯分布的网络,该网络以低分辨率图像作为输入,输出一系列高斯分布的参数;2)一个可微的2D GPU/CUDA加速的尺度感知光栅化模块,用于从预测的高斯分布中采样RGB值,并渲染超分辨率图像。整个网络采用端到端的方式进行训练。

关键创新:论文的关键创新在于:1)设计了一个能够泛化到不同图像和缩放因子的图像条件高斯分布预测网络;2)实现了一个高效的可微2D GPU/CUDA加速的尺度感知光栅化模块,用于快速渲染超分辨率图像。这使得GSASR能够克服传统GS方法的局限性,并实现高效且高质量的任意尺度超分辨率重建。

关键设计:高斯分布的参数包括位置、尺度、旋转角度和颜色等。损失函数包括L1损失和感知损失,用于约束重建图像的质量。网络结构采用U-Net结构,用于提取图像的特征。可微光栅化模块采用GPU/CUDA加速,以提高渲染速度。具体参数设置未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过大量实验验证了GSASR的有效性。实验结果表明,GSASR在视觉质量和计算效率方面均优于现有的基于INR的超分辨率方法。具体性能数据未知,但论文强调了GSASR能够泛化到不同的图像和缩放因子,并实现高效的超分辨率重建。

🎯 应用场景

该研究成果可应用于图像超分辨率重建、图像编辑、视频增强等领域。例如,可以用于提高监控视频的清晰度,修复老旧照片,以及提升游戏画面的质量。未来,该技术有望在移动设备、自动驾驶等领域得到广泛应用。

📄 摘要(原文)

Implicit Neural Representations (INR) have been successfully employed for Arbitrary-scale Super-Resolution (ASR). However, INR-based models need to query the multi-layer perceptron module numerous times and render a pixel in each query, resulting in insufficient representation capability and low computational efficiency. Recently, Gaussian Splatting (GS) has shown its advantages over INR in both visual quality and rendering speed in 3D tasks, which motivates us to explore whether GS can be employed for the ASR task. However, directly applying GS to ASR is exceptionally challenging because the original GS is an optimization-based method through overfitting each single scene, while in ASR we aim to learn a single model that can generalize to different images and scaling factors. We overcome these challenges by developing two novel techniques. Firstly, to generalize GS for ASR, we elaborately design an architecture to predict the corresponding image-conditioned Gaussians of the input low-resolution image in a feed-forward manner. Each Gaussian can fit the shape and direction of an area of complex textures, showing powerful representation capability. Secondly, we implement an efficient differentiable 2D GPU/CUDA-based scale-aware rasterization to render super-resolved images by sampling discrete RGB values from the predicted continuous Gaussians. Via end-to-end training, our optimized network, namely GSASR, can perform ASR for any image and unseen scaling factors. Extensive experiments validate the effectiveness of our proposed method. The code and models are available at https://github.com/ChrisDud0257/GSASR.