GaussianSR: High Fidelity 2D Gaussian Splatting for Arbitrary-Scale Image Super-Resolution

📄 arXiv: 2407.18046v1 📥 PDF

作者: Jintong Hu, Bin Xia, Bin Chen, Wenming Yang, Lei Zhang

分类: cs.CV, cs.AI

发布日期: 2024-07-25

备注: 13 pages, 12 figures


💡 一句话要点

提出GaussianSR,利用2D高斯溅射实现任意尺度图像超分辨率重建

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)

关键词: 图像超分辨率 高斯溅射 隐式神经表示 特征表示 长程依赖

📋 核心要点

  1. 现有基于INR的ASSR方法受限于编码特征中离散潜在码的表示能力,限制了超分辨率重建的性能。
  2. GaussianSR将每个像素表示为连续高斯场,通过渲染堆叠的高斯场来细化和上采样特征,建立长程依赖。
  3. GaussianSR通过端到端联合学习,以更少的参数实现了优于现有方法的ASSR性能,并具有可解释性。

📝 摘要(中文)

本文提出了一种名为GaussianSR的 novel 任意尺度图像超分辨率(ASSR)方法,旨在克服现有基于隐式神经表示(INR)的ASSR网络中,由编码特征中离散潜在码表示能力有限所带来的局限性。GaussianSR不同于将像素视为离散点的传统方法,而是将每个像素表示为一个连续的高斯场。通过渲染相互堆叠的高斯场,编码后的特征被同时细化和上采样,从而建立长程依赖关系以增强表示能力。此外,还开发了一个分类器来动态地为所有像素分配高斯核,以进一步提高灵活性。GaussianSR的所有组件(即编码器、分类器、高斯核和解码器)都是端到端联合学习的。实验表明,GaussianSR以比现有方法更少的参数实现了卓越的ASSR性能,同时具有可解释的和内容感知的特征聚合。

🔬 方法详解

问题定义:现有基于隐式神经表示(INR)的任意尺度超分辨率(ASSR)方法,依赖于从低分辨率图像中提取的离散潜在编码。这些离散编码的表达能力有限,阻碍了网络捕捉图像中的复杂细节和长程依赖关系,从而限制了超分辨率重建的质量。

核心思路:GaussianSR的核心思想是将图像中的每个像素不再视为离散的点,而是建模为一个连续的高斯场。通过在高斯场上进行渲染,可以实现特征的细化和上采样,同时建立像素间的长程依赖关系。这种连续表示方法能够更有效地捕捉图像的细节信息,从而提升超分辨率重建的质量。

技术框架:GaussianSR包含四个主要模块:编码器、分类器、高斯核以及解码器。首先,编码器从低分辨率图像中提取特征。然后,分类器动态地为每个像素分配合适的高斯核。接下来,通过渲染这些高斯核,实现特征的细化和上采样。最后,解码器将上采样后的特征解码为高分辨率图像。整个框架采用端到端的方式进行训练。

关键创新:GaussianSR的关键创新在于使用2D高斯溅射(2DGS)来表示图像。与传统的离散像素表示方法不同,2DGS将每个像素建模为一个连续的高斯场,从而能够更有效地捕捉图像的细节信息和长程依赖关系。此外,动态高斯核分配策略也提高了模型的灵活性和适应性。

关键设计:GaussianSR的关键设计包括:1) 使用可学习的高斯核参数(例如,均值和方差)来表示每个像素;2) 设计一个分类器来动态地为每个像素分配合适的高斯核,该分类器可以根据像素的局部特征来选择最佳的高斯核参数;3) 使用端到端的训练方式,联合优化编码器、分类器、高斯核和解码器,使得各个模块能够协同工作,从而实现最佳的超分辨率重建效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GaussianSR在多个基准数据集上取得了优于现有方法的性能。例如,在Set5数据集上,GaussianSR在PSNR和SSIM指标上均优于其他state-of-the-art方法,并且参数量更少。这表明GaussianSR在保证性能的同时,具有更高的效率。

🎯 应用场景

GaussianSR在图像超分辨率重建领域具有广泛的应用前景,例如可以应用于医学影像增强、卫星图像修复、老照片修复、视频监控等领域。该方法能够有效提升图像的清晰度和细节,从而提高图像的可视化效果和分析精度,具有重要的实际应用价值和潜在的商业价值。

📄 摘要(原文)

Implicit neural representations (INRs) have significantly advanced the field of arbitrary-scale super-resolution (ASSR) of images. Most existing INR-based ASSR networks first extract features from the given low-resolution image using an encoder, and then render the super-resolved result via a multi-layer perceptron decoder. Although these approaches have shown promising results, their performance is constrained by the limited representation ability of discrete latent codes in the encoded features. In this paper, we propose a novel ASSR method named GaussianSR that overcomes this limitation through 2D Gaussian Splatting (2DGS). Unlike traditional methods that treat pixels as discrete points, GaussianSR represents each pixel as a continuous Gaussian field. The encoded features are simultaneously refined and upsampled by rendering the mutually stacked Gaussian fields. As a result, long-range dependencies are established to enhance representation ability. In addition, a classifier is developed to dynamically assign Gaussian kernels to all pixels to further improve flexibility. All components of GaussianSR (i.e., encoder, classifier, Gaussian kernels, and decoder) are jointly learned end-to-end. Experiments demonstrate that GaussianSR achieves superior ASSR performance with fewer parameters than existing methods while enjoying interpretable and content-aware feature aggregations.