DGIQA: Depth-guided Feature Attention and Refinement for Generalizable Image Quality Assessment

作者: Vaishnav Ramesh, Junliang Liu, Haining Wang, Md Jahidul Islam

分类: cs.CV

发布日期: 2025-05-29

备注: 18 pages

💡 一句话要点

DGIQA：提出深度引导的特征注意力和精炼机制，提升图像质量评估的泛化性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 图像质量评估 无参考评估 深度引导 特征注意力 Transformer-CNN 跨数据集泛化 自然失真

📋 核心要点

现有无参考图像质量评估方法在处理未见过的自然失真时，泛化能力不足，难以准确评估图像质量。
本文提出Depth-CAR机制，利用场景深度信息引导特征学习，并结合Transformer-CNN Bridge融合全局上下文和局部空间特征。
实验表明，DGIQA模型在合成和真实数据集上均达到SOTA性能，并在跨数据集评估和自然失真评估中表现出色。

📝 摘要（中文）

针对无参考图像质量评估（NR-IQA）中缺乏对未见自然失真泛化能力的挑战，本文提出了一种新颖的深度引导交叉注意力和精炼（Depth-CAR）机制，该机制将场景深度和空间特征提炼成结构感知的表示，从而改进NR-IQA。这引入了对象显著性和场景相对对比度的知识，以进行更具区分性的特征学习。此外，本文还引入了TCB（Transformer-CNN Bridge）的思想，将Transformer骨干网络的高级全局上下文依赖性与一组分层CNN（卷积神经网络）层捕获的局部空间特征融合。本文将TCB和Depth-CAR实现为基于多模态注意力的投影函数，以选择信息量最大的特征，从而提高训练时间和推理效率。实验结果表明，本文提出的DGIQA模型在合成和真实基准数据集上均实现了最先进（SOTA）的性能。更重要的是，DGIQA在跨数据集评估以及评估自然图像失真（如弱光效应、雾霾条件和镜头光晕）方面优于SOTA模型。

🔬 方法详解

问题定义：现有的无参考图像质量评估（NR-IQA）方法在面对未知的、真实的图像失真时，泛化能力较差。它们往往过度拟合训练数据中的特定失真类型，导致在实际应用中表现不佳。尤其是在处理如低光、雾霾、镜头光晕等自然失真时，性能下降明显。因此，如何提高NR-IQA模型对各种自然失真的泛化能力是一个重要的挑战。

核心思路：本文的核心思路是利用场景的深度信息来引导特征学习，从而使模型能够更好地理解图像的结构和内容。通过引入深度信息，模型可以区分图像中的不同对象，并了解它们之间的相对关系，从而更准确地评估图像质量。此外，本文还通过Transformer-CNN Bridge（TCB）融合全局上下文信息和局部空间特征，进一步提升模型的表达能力。

技术框架：DGIQA模型的整体架构包括以下几个主要模块：1) 特征提取模块：使用CNN提取图像的局部空间特征。2) 深度估计模块：估计场景的深度信息。3) Depth-CAR模块：利用深度信息引导特征注意力，并进行特征精炼。4) TCB模块：融合Transformer提取的全局上下文信息和CNN提取的局部空间特征。5) 质量预测模块：根据融合后的特征预测图像质量得分。

关键创新：本文最重要的技术创新点在于Depth-CAR机制，它将场景深度信息融入到特征学习过程中，从而使模型能够更好地理解图像的结构和内容。与传统的NR-IQA方法相比，DGIQA能够更有效地利用图像的结构信息，从而提高对各种自然失真的泛化能力。此外，TCB模块也是一个创新点，它能够有效地融合全局上下文信息和局部空间特征，进一步提升模型的表达能力。

关键设计：Depth-CAR模块的关键设计包括：1) 使用深度图作为注意力权重，引导特征选择。2) 使用交叉注意力机制，融合深度信息和空间特征。3) 使用残差连接，避免梯度消失。TCB模块的关键设计包括：1) 使用Transformer提取全局上下文信息。2) 使用卷积层提取局部空间特征。3) 使用注意力机制融合全局上下文信息和局部空间特征。损失函数方面，采用均方误差（MSE）损失函数来训练模型，优化预测的图像质量得分与主观评分之间的差距。

🖼️ 关键图片

📊 实验亮点

DGIQA模型在多个基准数据集上取得了SOTA性能。在合成失真数据集上，DGIQA的性能优于所有对比方法。在真实失真数据集上，DGIQA的性能也显著优于其他方法。更重要的是，在跨数据集评估中，DGIQA的泛化能力明显优于其他方法，表明DGIQA能够更好地处理未知的自然失真。例如，在LIVE Challenge数据库上，DGIQA的性能提升了约5%。

🎯 应用场景

DGIQA模型具有广泛的应用前景，可用于图像增强、图像压缩、图像传输等领域的质量评估。例如，在图像增强中，可以使用DGIQA来评估不同增强算法的效果，选择最佳的增强方案。在图像压缩中，可以使用DGIQA来优化压缩参数，在保证图像质量的前提下，尽可能地减小文件大小。此外，DGIQA还可以应用于视频监控、医学影像等领域，提高图像质量评估的准确性和可靠性。

📄 摘要（原文）

A long-held challenge in no-reference image quality assessment (NR-IQA) learning from human subjective perception is the lack of objective generalization to unseen natural distortions. To address this, we integrate a novel Depth-Guided cross-attention and refinement (Depth-CAR) mechanism, which distills scene depth and spatial features into a structure-aware representation for improved NR-IQA. This brings in the knowledge of object saliency and relative contrast of the scene for more discriminative feature learning. Additionally, we introduce the idea of TCB (Transformer-CNN Bridge) to fuse high-level global contextual dependencies from a transformer backbone with local spatial features captured by a set of hierarchical CNN (convolutional neural network) layers. We implement TCB and Depth-CAR as multimodal attention-based projection functions to select the most informative features, which also improve training time and inference efficiency. Experimental results demonstrate that our proposed DGIQA model achieves state-of-the-art (SOTA) performance on both synthetic and authentic benchmark datasets. More importantly, DGIQA outperforms SOTA models on cross-dataset evaluations as well as in assessing natural image distortions such as low-light effects, hazy conditions, and lens flares.

DGIQA: Depth-guided Feature Attention and Refinement for Generalizable Image Quality Assessment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理