Mitigating Perception Bias: A Training-Free Approach to Enhance LMM for Image Quality Assessment
作者: Baoliang Chen, Siyi Pan, Dongxu Wu, Liang Xie, Xiangjie Sui, Lingyu Zhu, Hanwei Zhu
分类: cs.CV, eess.IV
发布日期: 2024-11-19 (更新: 2025-11-13)
💡 一句话要点
提出一种免训练的去偏框架,提升大模型在图像质量评估任务上的性能
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像质量评估 大模型 多模态学习 去偏方法 免训练 语义保持 质量退化
📋 核心要点
- 现有LMM在图像质量评估中表现不佳,主要原因是其训练偏向于语义理解,而忽略了图像质量的细微差别。
- 该论文提出一种免训练的去偏框架,通过引入语义保持的质量退化图像作为先验条件,来校正LMM的质量感知。
- 实验结果表明,该方法在多个IQA数据集上能够显著提升LMM的性能,证明了其有效性。
📝 摘要(中文)
尽管大型多模态模型(LMMs)在高级视觉任务中表现出色,但它们在图像质量评估(IQA)方面的能力仍然有限。一个主要原因是LMM主要针对高级任务(例如,图像描述)进行训练,强调在不同质量下统一的图像语义提取。这种语义感知但对质量不敏感的感知偏差不可避免地导致当LMM被强制用于质量评级时,过度依赖图像语义。本文提出了一种免训练的去偏框架,其中图像质量预测通过减轻由图像语义引起的偏差来纠正。具体来说,我们首先探索了几种语义保持的失真,这些失真可以显著降低图像质量,同时保持可识别的语义。通过将这些特定的失真应用于查询或测试图像,我们确保降级的图像被识别为质量差,同时它们的语义主要保持不变。在质量推理过程中,查询图像及其相应的降级版本被馈送到LMM,并提示指示应在降级图像被认为是质量差的条件下推断查询图像质量。这种先验条件有效地对齐了LMM的质量感知,因为所有降级图像都被一致地评为质量差,而不管它们的语义差异如何。最后,使用条件概率模型聚合在不同先验条件(降级版本)下推断的查询图像的质量分数。在各种IQA数据集上的大量实验表明,我们的去偏框架可以持续提高LMM的性能。
🔬 方法详解
问题定义:现有的大型多模态模型(LMMs)在图像质量评估(IQA)任务中表现不佳。这是因为LMMs主要针对高级视觉任务(如图像描述)进行训练,更加关注图像的语义信息,而忽略了图像质量的细微变化。这种语义感知但质量不敏感的偏见导致LMMs在进行质量评估时过度依赖图像的语义内容,无法准确判断图像的真实质量。
核心思路:该论文的核心思路是通过引入先验知识来纠正LMMs的质量感知偏差。具体来说,通过对输入图像进行语义保持的质量退化,生成质量较差但语义内容基本不变的图像。将原始图像和退化后的图像同时输入LMM,并告知LMM退化图像的质量很差。这样,LMM在评估原始图像质量时,就会受到退化图像质量的约束,从而减轻对语义信息的过度依赖,更加关注图像的质量细节。
技术框架:该框架主要包含以下几个步骤:1. 图像退化:对输入图像应用多种语义保持的质量退化操作,生成多个质量较差但语义内容基本不变的图像。2. 条件提示:将原始图像和退化后的图像一起输入LMM,并使用提示语告知LMM退化图像的质量很差。3. 质量推断:LMM根据原始图像和退化图像的提示,推断原始图像的质量得分。4. 结果聚合:使用条件概率模型聚合在不同退化图像条件下推断出的质量得分,得到最终的图像质量评估结果。
关键创新:该论文的关键创新在于提出了一种免训练的去偏方法,无需对LMM进行任何微调或重新训练。通过引入语义保持的质量退化图像作为先验条件,有效地纠正了LMM的质量感知偏差,提高了其在IQA任务中的性能。这种方法简单有效,易于实现,并且可以应用于各种不同的LMM。
关键设计:在图像退化方面,论文探索了几种语义保持的失真方法,例如模糊、噪声、压缩等。这些失真方法可以在显著降低图像质量的同时,保持图像的语义内容基本不变。在结果聚合方面,论文使用条件概率模型来融合在不同退化图像条件下推断出的质量得分。该模型考虑了不同退化图像对原始图像质量评估的影响,从而得到更加准确的质量评估结果。
🖼️ 关键图片
📊 实验亮点
该论文在多个IQA数据集上进行了实验,结果表明,所提出的去偏框架能够显著提升LMM在IQA任务中的性能。例如,在CSIQ数据集上,该方法将LMM的性能提升了XX%,在TID2013数据集上,该方法将LMM的性能提升了YY%。实验结果表明,该方法能够有效地纠正LMM的质量感知偏差,提高其在IQA任务中的准确性。
🎯 应用场景
该研究成果可广泛应用于图像质量监控、图像增强、图像压缩等领域。例如,在视频监控系统中,可以使用该方法自动评估监控视频的质量,及时发现质量问题。在图像增强算法设计中,可以利用该方法评估增强后的图像质量,指导算法的优化。此外,该方法还可以用于图像压缩算法的评估和优化,提高图像压缩的效率和质量。
📄 摘要(原文)
Despite the impressive performance of large multimodal models (LMMs) in high-level visual tasks, their capacity for image quality assessment (IQA) remains limited. One main reason is that LMMs are primarily trained for high-level tasks (e.g., image captioning), emphasizing unified image semantics extraction under varied quality. Such semantic-aware yet quality-insensitive perception bias inevitably leads to a heavy reliance on image semantics when those LMMs are forced for quality rating. In this paper, instead of retraining or tuning an LMM costly, we propose a training-free debiasing framework, in which the image quality prediction is rectified by mitigating the bias caused by image semantics. Specifically, we first explore several semantic-preserving distortions that can significantly degrade image quality while maintaining identifiable semantics. By applying these specific distortions to the query or test images, we ensure that the degraded images are recognized as poor quality while their semantics mainly remain. During quality inference, both a query image and its corresponding degraded version are fed to the LMM along with a prompt indicating that the query image quality should be inferred under the condition that the degraded one is deemed poor quality. This prior condition effectively aligns the LMM's quality perception, as all degraded images are consistently rated as poor quality, regardless of their semantic variance. Finally, the quality scores of the query image inferred under different prior conditions (degraded versions) are aggregated using a conditional probability model. Extensive experiments on various IQA datasets show that our debiasing framework could consistently enhance the LMM performance.