Scale Contrastive Learning with Selective Attentions for Blind Image Quality Assessment
作者: Zihao Huang, Xudong Li, Bohan Fu, Xiaohui Chu, Ke Li, Yunhang Shen, Yan Zhang
分类: cs.CV
发布日期: 2024-11-13
💡 一句话要点
提出CSFIQA框架,利用选择性注意力与对比学习提升盲图像质量评估性能
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 盲图像质量评估 多尺度特征 选择性注意力 对比学习 图像质量 视觉感知 噪声样本匹配
📋 核心要点
- 现有BIQA方法难以准确模拟人类视觉感知,尤其是在多尺度信息融合方面存在不足。
- CSFIQA框架通过选择性注意力机制减少尺度间冗余,并利用对比学习挖掘尺度间的质量差异。
- 实验结果表明,CSFIQA在多个数据集上显著优于现有方法,验证了其有效性。
📝 摘要(中文)
盲图像质量评估(BIQA)是计算机视觉中的一项基础任务,但其结果往往难以与人类主观感知保持一致。最近的研究表明,多尺度评估策略能够复制人类视觉的层级结构,因此具有良好的前景。然而,这些策略的有效性受到对不同图像尺度如何影响感知质量的理解不足的限制。本文旨在解决两个主要挑战:不同尺度之间存在大量的信息冗余,以及来自这些尺度的特征混合可能导致混淆,因为这些特征的质量可能差异很大。为此,本文提出了一种新的多尺度BIQA框架,即对比约束尺度聚焦IQA框架(CSFIQA)。CSFIQA采用选择性聚焦注意力机制来最小化信息冗余并突出关键的质量相关信息。此外,CSFIQA还包括一个尺度级对比学习模块,该模块配备了噪声样本匹配机制,用于识别同一图像内容在不同尺度上的质量差异。通过探索图像尺度与感知质量之间的内在关系,所提出的CSFIQA在八个基准数据集上实现了领先的性能,例如,在CSIQ上实现了0.967的SRCC值(相比之下为0.947),在LIVEC上实现了0.905的SRCC值(相比之下为0.876)。
🔬 方法详解
问题定义:盲图像质量评估(BIQA)旨在预测图像的感知质量,而无需参考原始无失真图像。现有的多尺度BIQA方法在融合不同尺度的信息时,存在信息冗余和尺度间质量差异导致的混淆问题,影响了评估的准确性。
核心思路:本文的核心思路是利用选择性注意力机制来关注不同尺度上与质量相关的关键信息,并使用对比学习来学习不同尺度之间的质量差异。通过这种方式,模型可以更好地理解图像的整体质量,并减少冗余信息和尺度间混淆的影响。
技术框架:CSFIQA框架主要包含以下几个模块:1) 多尺度特征提取:使用卷积神经网络提取图像在不同尺度上的特征表示。2) 选择性聚焦注意力机制:该模块用于选择性地关注不同尺度上与质量相关的关键信息,减少信息冗余。3) 尺度级对比学习模块:该模块通过对比学习,学习同一图像内容在不同尺度上的质量差异。4) 质量预测模块:该模块将提取的特征进行融合,并预测图像的质量得分。
关键创新:本文的关键创新在于提出了选择性聚焦注意力机制和尺度级对比学习模块。选择性聚焦注意力机制可以有效地减少信息冗余,并突出关键的质量相关信息。尺度级对比学习模块可以学习不同尺度之间的质量差异,从而提高评估的准确性。与现有方法相比,CSFIQA能够更好地理解图像的整体质量,并减少冗余信息和尺度间混淆的影响。
关键设计:在选择性聚焦注意力机制中,使用了sigmoid函数来生成注意力权重,并使用这些权重来加权不同尺度的特征。在尺度级对比学习模块中,使用了噪声样本匹配机制来生成负样本,并使用InfoNCE损失函数来训练模型。具体的网络结构和参数设置在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
CSFIQA在CSIQ数据集上实现了0.967的SRCC值,相比之下,现有最佳方法为0.947。在LIVEC数据集上,CSFIQA实现了0.905的SRCC值,而现有最佳方法为0.876。实验结果表明,CSFIQA在多个基准数据集上显著优于现有方法,验证了其有效性。
🎯 应用场景
该研究成果可应用于图像处理、计算机视觉、多媒体通信等领域。例如,在图像压缩、图像增强、视频传输等应用中,可以使用该方法来评估图像或视频的质量,从而优化算法参数,提高用户体验。此外,该方法还可以用于图像质量监控、图像检索等领域。
📄 摘要(原文)
Blind image quality assessment (BIQA) serves as a fundamental task in computer vision, yet it often fails to consistently align with human subjective perception. Recent advances show that multi-scale evaluation strategies are promising due to their ability to replicate the hierarchical structure of human vision. However, the effectiveness of these strategies is limited by a lack of understanding of how different image scales influence perceived quality. This paper addresses two primary challenges: the significant redundancy of information across different scales, and the confusion caused by combining features from these scales, which may vary widely in quality. To this end, a new multi-scale BIQA framework is proposed, namely Contrast-Constrained Scale-Focused IQA Framework (CSFIQA). CSFIQA features a selective focus attention mechanism to minimize information redundancy and highlight critical quality-related information. Additionally, CSFIQA includes a scale-level contrastive learning module equipped with a noise sample matching mechanism to identify quality discrepancies across the same image content at different scales. By exploring the intrinsic relationship between image scales and the perceived quality, the proposed CSFIQA achieves leading performance on eight benchmark datasets, e.g., achieving SRCC values of 0.967 (versus 0.947 in CSIQ) and 0.905 (versus 0.876 in LIVEC).