QUSR: Quality-Aware and Uncertainty-Guided Image Super-Resolution Diffusion Model

📄 arXiv: 2603.09125v1 📥 PDF

作者: Junjie Yin, Jiaju Li, Hanfa Xing

分类: cs.CV, cs.AI

发布日期: 2026-03-10

备注: This paper has been accepted by ICASSP 2026

🔗 代码/项目: GITHUB


💡 一句话要点

QUSR:面向真实场景,提出质量感知和不确定性引导的图像超分辨率扩散模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像超分辨率 扩散模型 不确定性引导 质量感知 多模态大语言模型

📋 核心要点

  1. 真实场景下的图像超分辨率重建面临退化未知且空间非均匀的挑战,现有方法难以有效恢复细节并易产生伪影。
  2. QUSR模型通过不确定性引导的噪声生成模块,自适应地调整噪声注入强度,从而更好地重建复杂细节并保留原始信息。
  3. 实验结果表明,QUSR在真实场景下能够生成高保真度和高真实感的图像,优于现有方法。

📝 摘要(中文)

本文提出了一种新颖的超分辨率扩散模型QUSR,旨在解决真实场景下图像超分辨率(ISR)问题,该场景中图像退化未知且空间非均匀,导致细节丢失或视觉伪影。QUSR集成了质量感知先验(QAP)和不确定性引导的噪声生成(UNG)模块。UNG模块自适应地调整噪声注入强度,对高不确定性区域(如边缘和纹理)施加更强的扰动以重建复杂细节,同时最小化低不确定性区域(如平坦区域)的噪声以保留原始信息。QAP利用先进的多模态大型语言模型(MLLM)生成可靠的质量描述,为恢复过程提供有效且可解释的质量先验。实验结果表明,QUSR可以在真实场景中生成高保真度和高真实感的图像。源代码可在https://github.com/oTvTog/QUSR 获取。

🔬 方法详解

问题定义:论文旨在解决真实世界图像超分辨率重建问题,即在退化过程未知且空间非均匀的情况下,如何有效地恢复图像细节并避免伪影。现有方法在处理此类复杂退化时,往往难以兼顾细节恢复和伪影抑制,导致重建质量下降。

核心思路:论文的核心思路是利用图像的不确定性信息来指导噪声注入过程,并结合质量感知先验来约束重建结果。具体来说,对高不确定性区域(如边缘和纹理)施加更强的噪声,以便在扩散过程中更好地学习和重建这些复杂细节;同时,对低不确定性区域减少噪声,以保留原始信息。此外,引入质量感知先验,利用多模态大语言模型提供图像质量的描述,从而引导超分辨率重建过程。

技术框架:QUSR模型的整体框架包含两个主要模块:不确定性引导的噪声生成(UNG)模块和质量感知先验(QAP)模块。UNG模块负责根据图像局部区域的不确定性程度,自适应地调整噪声注入强度。QAP模块则利用多模态大语言模型分析输入图像,生成质量描述,并将其作为先验信息融入到扩散模型的重建过程中。整个流程包括前向扩散过程和反向重建过程,其中UNG模块和QAP模块在反向重建过程中发挥作用。

关键创新:该论文的关键创新在于将图像的不确定性信息和质量感知先验融入到扩散模型的超分辨率重建过程中。传统方法通常采用固定的噪声注入策略,忽略了图像不同区域的差异性。而QUSR模型通过UNG模块,能够根据局部不确定性自适应地调整噪声注入,从而更好地处理复杂退化。此外,引入QAP模块,利用多模态大语言模型提供图像质量的描述,为重建过程提供更有效的先验信息。

关键设计:UNG模块的关键设计在于如何准确估计图像局部区域的不确定性。论文可能采用了方差、梯度等指标来衡量不确定性,并设计了一个自适应的噪声注入函数,将不确定性映射到噪声强度。QAP模块的关键设计在于如何有效地利用多模态大语言模型生成的质量描述。论文可能采用了注意力机制或其他融合策略,将质量描述融入到扩散模型的反向重建过程中。损失函数可能包括重建损失、感知损失等,以保证重建图像的质量和真实感。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

论文实验结果表明,QUSR模型在真实场景下的图像超分辨率重建任务中,能够显著提升图像的保真度和真实感。相较于现有方法,QUSR能够更好地恢复图像细节,并有效抑制伪影的产生。具体的性能数据(如PSNR、SSIM等)和对比基线需要在论文中查找。

🎯 应用场景

QUSR模型具有广泛的应用前景,包括但不限于:老照片修复、监控视频增强、医学图像超分辨率、遥感图像增强等。该研究能够提升图像超分辨率重建在真实场景下的实用性,为相关领域提供更清晰、更真实的图像数据,具有重要的实际价值和潜在的社会影响。

📄 摘要(原文)

Diffusion-based image super-resolution (ISR) has shown strong potential, but it still struggles in real-world scenarios where degradations are unknown and spatially non-uniform, often resulting in lost details or visual artifacts. To address this challenge, we propose a novel super-resolution diffusion model, QUSR, which integrates a Quality-Aware Prior (QAP) with an Uncertainty-Guided Noise Generation (UNG) module. The UNG module adaptively adjusts the noise injection intensity, applying stronger perturbations to high-uncertainty regions (e.g., edges and textures) to reconstruct complex details, while minimizing noise in low-uncertainty regions (e.g., flat areas) to preserve original information. Concurrently, the QAP leverages an advanced Multimodal Large Language Model (MLLM) to generate reliable quality descriptions, providing an effective and interpretable quality prior for the restoration process. Experimental results confirm that QUSR can produce high-fidelity and high-realism images in real-world scenarios. The source code is available at https://github.com/oTvTog/QUSR.