Dog-IQA: Standard-guided Zero-shot MLLM for Mix-grained Image Quality Assessment

📄 arXiv: 2410.02505v2 📥 PDF

作者: Kai Liu, Ziqing Zhang, Wenbo Li, Renjing Pei, Fenglong Song, Xiaohong Liu, Linghe Kong, Yulun Zhang

分类: cs.CV, cs.AI

发布日期: 2024-10-03 (更新: 2024-10-10)

备注: 10 pages, 5 figures. The code and models will be available at https://github.com/Kai-Liu001/Dog-IQA

🔗 代码/项目: GITHUB


💡 一句话要点

提出Dog-IQA,一种标准引导的零样本混合粒度图像质量评估方法,利用MLLM先验知识。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像质量评估 零样本学习 多模态大语言模型 标准引导 混合粒度 跨数据集泛化

📋 核心要点

  1. 现有IQA方法泛化性差,训练成本高昂,难以适应复杂场景和新数据集。
  2. Dog-IQA利用MLLM的先验知识,设计标准引导的零样本推理流程,模仿人类专家进行图像质量评估。
  3. Dog-IQA在跨数据集场景中,相较于无训练方法达到SOTA性能,且与有训练方法相比具有竞争力。

📝 摘要(中文)

图像质量评估(IQA)几乎是所有计算机视觉领域模型性能的黄金标准。然而,它仍然存在泛化能力差和训练成本高的问题。为了解决这些问题,我们提出了Dog-IQA,一种标准引导的零样本混合粒度IQA方法,该方法无需训练,并利用了多模态大型语言模型(MLLM)的卓越先验知识。为了获得准确的IQA分数,即与人类一致的分数,我们设计了一个基于MLLM的推理流程,模仿人类专家。具体来说,Dog-IQA应用了两种技术。首先,Dog-IQA使用特定标准进行客观评分,利用MLLM的行为模式,并最大限度地减少主观因素的影响。其次,Dog-IQA综合考虑局部语义对象和整个图像作为输入,并聚合它们的分数,从而利用局部和全局信息。与无训练方法相比,我们提出的Dog-IQA在跨数据集场景中实现了最先进(SOTA)的性能,并且与基于训练的方法相比具有竞争力的性能。我们的代码将在https://github.com/Kai-Liu001/Dog-IQA上提供。

🔬 方法详解

问题定义:图像质量评估(IQA)旨在自动预测图像的感知质量。现有的IQA方法通常需要大量的标注数据进行训练,泛化能力较差,难以适应新的失真类型或数据集。此外,训练成本也很高。因此,如何在零样本场景下,利用先验知识进行准确的图像质量评估是一个重要的挑战。

核心思路:Dog-IQA的核心思路是模仿人类专家进行图像质量评估的过程。人类专家在评估图像质量时,会参考一定的标准,并综合考虑图像的全局信息和局部细节。Dog-IQA利用多模态大型语言模型(MLLM)的强大先验知识,通过标准引导的方式,客观地评估图像质量,并综合考虑局部语义对象和整个图像的信息。

技术框架:Dog-IQA的整体框架包含以下几个主要步骤:1) 输入图像;2) 利用目标检测模型检测图像中的局部语义对象;3) 将整个图像和局部语义对象输入到MLLM中,并使用标准引导的方式进行评分;4) 聚合整个图像和局部语义对象的评分,得到最终的图像质量评分。

关键创新:Dog-IQA的关键创新在于:1) 提出了一种标准引导的零样本IQA方法,无需训练,即可利用MLLM的先验知识进行图像质量评估;2) 综合考虑局部语义对象和整个图像的信息,从而更全面地评估图像质量;3) 通过标准引导的方式,减少了主观因素的影响,提高了评分的客观性。

关键设计:Dog-IQA的关键设计包括:1) 使用预训练的目标检测模型(例如,Faster R-CNN)检测图像中的局部语义对象;2) 使用特定的提示语(prompts)引导MLLM进行评分,例如,“This image is [quality level] because of [reasons]”;3) 使用加权平均的方式聚合整个图像和局部语义对象的评分,权重可以根据经验或通过实验进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Dog-IQA在多个跨数据集IQA基准测试中取得了优异的性能。例如,在LIVE Challenge Database上,Dog-IQA的性能超过了现有的无训练方法,并且与一些基于训练的方法相比具有竞争力。实验结果表明,Dog-IQA能够有效地利用MLLM的先验知识进行图像质量评估。

🎯 应用场景

Dog-IQA可应用于图像增强、图像压缩、图像传输等领域,用于评估算法的性能和优化参数。它还可以用于图像质量监控、图像搜索等应用中,提高用户体验。未来,Dog-IQA可以扩展到视频质量评估,并应用于更广泛的计算机视觉任务中。

📄 摘要(原文)

Image quality assessment (IQA) serves as the golden standard for all models' performance in nearly all computer vision fields. However, it still suffers from poor out-of-distribution generalization ability and expensive training costs. To address these problems, we propose Dog-IQA, a standard-guided zero-shot mix-grained IQA method, which is training-free and utilizes the exceptional prior knowledge of multimodal large language models (MLLMs). To obtain accurate IQA scores, namely scores consistent with humans, we design an MLLM-based inference pipeline that imitates human experts. In detail, Dog-IQA applies two techniques. First, Dog-IQA objectively scores with specific standards that utilize MLLM's behavior pattern and minimize the influence of subjective factors. Second, Dog-IQA comprehensively takes local semantic objects and the whole image as input and aggregates their scores, leveraging local and global information. Our proposed Dog-IQA achieves state-of-the-art (SOTA) performance compared with training-free methods, and competitive performance compared with training-based methods in cross-dataset scenarios. Our code will be available at https://github.com/Kai-Liu001/Dog-IQA.