DGIQA: Depth-guided Feature Attention and Refinement for Generalizable Image Quality Assessment
作者: Vaishnav Ramesh, Junliang Liu, Haining Wang, Md Jahidul Islam
分类: cs.CV
发布日期: 2025-05-29
备注: 18 pages
💡 一句话要点
DGIQA:提出深度引导的特征注意力和精炼机制,提升图像质量评估的泛化性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像质量评估 无参考评估 深度引导 特征注意力 Transformer-CNN 跨数据集泛化 自然失真
📋 核心要点
- 现有无参考图像质量评估方法在处理未见过的自然失真时,泛化能力不足,难以准确评估图像质量。
- 本文提出Depth-CAR机制,利用场景深度信息引导特征学习,并结合Transformer-CNN Bridge融合全局上下文和局部空间特征。
- 实验表明,DGIQA模型在合成和真实数据集上均达到SOTA性能,并在跨数据集评估和自然失真评估中表现出色。
📝 摘要(中文)
针对无参考图像质量评估(NR-IQA)中缺乏对未见自然失真泛化能力的挑战,本文提出了一种新颖的深度引导交叉注意力和精炼(Depth-CAR)机制,该机制将场景深度和空间特征提炼成结构感知的表示,从而改进NR-IQA。这引入了对象显著性和场景相对对比度的知识,以进行更具区分性的特征学习。此外,本文还引入了TCB(Transformer-CNN Bridge)的思想,将Transformer骨干网络的高级全局上下文依赖性与一组分层CNN(卷积神经网络)层捕获的局部空间特征融合。本文将TCB和Depth-CAR实现为基于多模态注意力的投影函数,以选择信息量最大的特征,从而提高训练时间和推理效率。实验结果表明,本文提出的DGIQA模型在合成和真实基准数据集上均实现了最先进(SOTA)的性能。更重要的是,DGIQA在跨数据集评估以及评估自然图像失真(如弱光效应、雾霾条件和镜头光晕)方面优于SOTA模型。
🔬 方法详解
问题定义:现有的无参考图像质量评估(NR-IQA)方法在面对未知的、真实的图像失真时,泛化能力较差。它们往往过度拟合训练数据中的特定失真类型,导致在实际应用中表现不佳。尤其是在处理如低光、雾霾、镜头光晕等自然失真时,性能下降明显。因此,如何提高NR-IQA模型对各种自然失真的泛化能力是一个重要的挑战。
核心思路:本文的核心思路是利用场景的深度信息来引导特征学习,从而使模型能够更好地理解图像的结构和内容。通过引入深度信息,模型可以区分图像中的不同对象,并了解它们之间的相对关系,从而更准确地评估图像质量。此外,本文还通过Transformer-CNN Bridge(TCB)融合全局上下文信息和局部空间特征,进一步提升模型的表达能力。
技术框架:DGIQA模型的整体架构包括以下几个主要模块:1) 特征提取模块:使用CNN提取图像的局部空间特征。2) 深度估计模块:估计场景的深度信息。3) Depth-CAR模块:利用深度信息引导特征注意力,并进行特征精炼。4) TCB模块:融合Transformer提取的全局上下文信息和CNN提取的局部空间特征。5) 质量预测模块:根据融合后的特征预测图像质量得分。
关键创新:本文最重要的技术创新点在于Depth-CAR机制,它将场景深度信息融入到特征学习过程中,从而使模型能够更好地理解图像的结构和内容。与传统的NR-IQA方法相比,DGIQA能够更有效地利用图像的结构信息,从而提高对各种自然失真的泛化能力。此外,TCB模块也是一个创新点,它能够有效地融合全局上下文信息和局部空间特征,进一步提升模型的表达能力。
关键设计:Depth-CAR模块的关键设计包括:1) 使用深度图作为注意力权重,引导特征选择。2) 使用交叉注意力机制,融合深度信息和空间特征。3) 使用残差连接,避免梯度消失。TCB模块的关键设计包括:1) 使用Transformer提取全局上下文信息。2) 使用卷积层提取局部空间特征。3) 使用注意力机制融合全局上下文信息和局部空间特征。损失函数方面,采用均方误差(MSE)损失函数来训练模型,优化预测的图像质量得分与主观评分之间的差距。
🖼️ 关键图片
📊 实验亮点
DGIQA模型在多个基准数据集上取得了SOTA性能。在合成失真数据集上,DGIQA的性能优于所有对比方法。在真实失真数据集上,DGIQA的性能也显著优于其他方法。更重要的是,在跨数据集评估中,DGIQA的泛化能力明显优于其他方法,表明DGIQA能够更好地处理未知的自然失真。例如,在LIVE Challenge数据库上,DGIQA的性能提升了约5%。
🎯 应用场景
DGIQA模型具有广泛的应用前景,可用于图像增强、图像压缩、图像传输等领域的质量评估。例如,在图像增强中,可以使用DGIQA来评估不同增强算法的效果,选择最佳的增强方案。在图像压缩中,可以使用DGIQA来优化压缩参数,在保证图像质量的前提下,尽可能地减小文件大小。此外,DGIQA还可以应用于视频监控、医学影像等领域,提高图像质量评估的准确性和可靠性。
📄 摘要(原文)
A long-held challenge in no-reference image quality assessment (NR-IQA) learning from human subjective perception is the lack of objective generalization to unseen natural distortions. To address this, we integrate a novel Depth-Guided cross-attention and refinement (Depth-CAR) mechanism, which distills scene depth and spatial features into a structure-aware representation for improved NR-IQA. This brings in the knowledge of object saliency and relative contrast of the scene for more discriminative feature learning. Additionally, we introduce the idea of TCB (Transformer-CNN Bridge) to fuse high-level global contextual dependencies from a transformer backbone with local spatial features captured by a set of hierarchical CNN (convolutional neural network) layers. We implement TCB and Depth-CAR as multimodal attention-based projection functions to select the most informative features, which also improve training time and inference efficiency. Experimental results demonstrate that our proposed DGIQA model achieves state-of-the-art (SOTA) performance on both synthetic and authentic benchmark datasets. More importantly, DGIQA outperforms SOTA models on cross-dataset evaluations as well as in assessing natural image distortions such as low-light effects, hazy conditions, and lens flares.