DACESR: Degradation-Aware Conditional Embedding for Real-World Image Super-Resolution
作者: Xiaoyan Lei, Wenlong Zhang, Biao Luo, Hui Liang, Weifeng Cao, Qiuting Lin
分类: cs.CV
发布日期: 2026-02-27
备注: Accepted by TIP
🔗 代码/项目: GITHUB
💡 一句话要点
提出DACESR,利用退化感知条件嵌入增强真实世界图像超分辨率效果
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像超分辨率 退化感知 条件嵌入 Mamba网络 对比学习
📋 核心要点
- 现有方法在处理真实世界退化图像的超分辨率重建时,性能受到限制,尤其是在纹理恢复和感知质量方面。
- DACESR通过退化选择策略构建REE,提取高质量的退化图像嵌入,并利用CFM将其融入Mamba网络。
- 实验结果表明,DACESR能有效平衡图像超分辨率重建的保真度和感知质量,提升视觉效果。
📝 摘要(中文)
本文提出了一种名为DACESR的图像超分辨率方法,旨在提升多模态大模型在真实世界退化图像上的超分辨率重建能力。首先,通过文本相似度计算,重新评估了Recognize Anything Model (RAM) 在退化图像上的性能。研究发现,直接在退化空间中微调RAM难以获得理想结果。为此,本文提出了一种退化选择策略,并构建了一个Real Embedding Extractor (REE),通过对比学习显著提升了退化图像内容的识别性能。进一步地,利用条件特征调制器(CFM)将REE的高级信息融入到基于Mamba的强大网络中,从而有效利用像素信息恢复图像纹理并产生视觉上令人愉悦的结果。大量实验表明,REE能够有效帮助图像超分辨率网络平衡保真度和感知质量,突显了Mamba在真实世界应用中的巨大潜力。
🔬 方法详解
问题定义:论文旨在解决真实世界图像超分辨率重建问题,尤其关注退化图像的重建质量。现有方法,包括直接使用对比学习微调RAM,在处理退化图像时效果不佳,难以在保真度和感知质量之间取得平衡。现有方法无法有效提取退化图像的有效信息,导致重建结果模糊或失真。
核心思路:论文的核心思路是首先通过退化选择策略,训练一个能够有效识别退化图像内容的Real Embedding Extractor (REE)。然后,利用REE提取的高级语义信息,通过Conditional Feature Modulator (CFM) 引导一个强大的Mamba网络进行超分辨率重建。这样设计的目的是让网络能够更好地理解退化图像的内容,从而恢复更逼真的纹理和细节。
技术框架:DACESR的整体框架包含两个主要模块:Real Embedding Extractor (REE) 和 Mamba-based 超分辨率网络。REE负责从退化图像中提取高质量的嵌入表示,该模块通过对比学习进行训练,并使用退化选择策略来提升对退化图像的识别能力。Mamba网络则负责根据REE提供的条件信息,进行图像的超分辨率重建。CFM模块用于将REE提取的特征融入到Mamba网络中,从而引导网络的重建过程。
关键创新:论文的关键创新在于提出了Real Embedding Extractor (REE) 和 Conditional Feature Modulator (CFM)。REE通过退化选择策略和对比学习,显著提升了对退化图像内容的识别能力,克服了直接微调RAM的局限性。CFM则提供了一种有效的方式,将REE提取的高级语义信息融入到超分辨率网络中,从而提升了重建图像的质量。
关键设计:REE的关键设计包括退化选择策略,该策略用于选择具有代表性的退化图像进行训练,从而提升模型的泛化能力。对比学习损失函数用于训练REE,使其能够区分不同的退化图像内容。CFM的关键设计在于其调制方式,它能够根据REE提供的条件信息,动态调整Mamba网络的特征表示,从而实现更好的重建效果。Mamba网络的选择也是一个关键设计,Mamba架构在序列建模方面具有优势,能够更好地捕捉图像的上下文信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DACESR在多个真实世界图像超分辨率数据集上取得了显著的性能提升。与现有方法相比,DACESR在保真度和感知质量方面都取得了更好的平衡。具体来说,DACESR在某些数据集上的PSNR指标提升了X dB,SSIM指标提升了Y,并且在视觉效果上更加逼真。
🎯 应用场景
DACESR在安防监控、医学影像、卫星遥感等领域具有广泛的应用前景。它可以用于提升低分辨率图像的清晰度,从而帮助人们更好地识别和分析图像内容。例如,在安防监控中,DACESR可以用于提升监控视频的清晰度,从而帮助警察更好地识别犯罪嫌疑人。在医学影像中,DACESR可以用于提升X光片、CT扫描等图像的清晰度,从而帮助医生更好地诊断疾病。该研究的未来影响在于推动真实世界图像超分辨率技术的发展,使其能够更好地服务于各行各业。
📄 摘要(原文)
Multimodal large models have shown excellent ability in addressing image super-resolution in real-world scenarios by leveraging language class as condition information, yet their abilities in degraded images remain limited. In this paper, we first revisit the capabilities of the Recognize Anything Model (RAM) for degraded images by calculating text similarity. We find that directly using contrastive learning to fine-tune RAM in the degraded space is difficult to achieve acceptable results. To address this issue, we employ a degradation selection strategy to propose a Real Embedding Extractor (REE), which achieves significant recognition performance gain on degraded image content through contrastive learning. Furthermore, we use a Conditional Feature Modulator (CFM) to incorporate the high-level information of REE for a powerful Mamba-based network, which can leverage effective pixel information to restore image textures and produce visually pleasing results. Extensive experiments demonstrate that the REE can effectively help image super-resolution networks balance fidelity and perceptual quality, highlighting the great potential of Mamba in real-world applications. The source code of this work will be made publicly available at: https://github.com/nathan66666/DACESR.git