Adaptive Image Quality Assessment via Teaching Large Multimodal Model to Compare
作者: Hanwei Zhu, Haoning Wu, Yixuan Li, Zicheng Zhang, Baoliang Chen, Lingyu Zhu, Yuming Fang, Guangtao Zhai, Weisi Lin, Shiqi Wang
分类: cs.CV, eess.IV
发布日期: 2024-05-29
💡 一句话要点
提出Compare2Score,通过教导大模型比较图像质量,实现自适应图像质量评估。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像质量评估 大型多模态模型 无参考评估 对比学习 最大后验估计
📋 核心要点
- 现有基于大型多模态模型(LMM)的图像质量评估(IQA)方法主要依赖绝对质量评分,缺乏将相对质量比较转化为连续质量分数的研究。
- Compare2Score通过生成放大的比较指令,训练LMM进行图像质量比较,并提出软比较方法和最大后验估计优化质量分数。
- 在九个IQA数据集上的实验表明,Compare2Score优于现有IQA模型,且基于概率矩阵的推理转换方法具有通用性。
📝 摘要(中文)
本文提出Compare2Score,一种基于大型多模态模型(LMM)的无参考图像质量评估(NR-IQA)模型。该模型不仅能产生定性的比较结果,还能有效地将这些离散的比较级别转化为连续的质量分数。训练阶段,通过比较来自同一IQA数据集的图像,生成放大的比较指令,从而更灵活地整合不同的IQA数据集。利用建立的大规模训练语料库,开发了一个类人的视觉质量比较器。在推理阶段,超越二元选择,提出了一种软比较方法,计算测试图像优于多个预定义锚点图像的可能性。通过最大后验估计,利用得到的概率矩阵进一步优化质量分数。在九个IQA数据集上的大量实验验证了Compare2Score有效地桥接了训练期间文本定义的比较级别与推理期间转换的单图像质量分数,超越了各种场景下的最先进的IQA模型。此外,验证了基于概率矩阵的推理转换不仅提高了Compare2Score的评分准确性,还提高了零样本通用LMM的评分准确性,表明了其内在有效性。
🔬 方法详解
问题定义:现有基于LMM的IQA方法主要集中在绝对质量评分上,缺乏有效利用LMM进行相对质量比较的能力,以及将相对比较结果转化为连续质量分数的机制。现有方法难以充分利用不同IQA数据集的比较信息,且推理过程较为简单,精度有待提高。
核心思路:本文的核心思路是训练LMM学习图像质量的相对比较,并设计一种将相对比较结果转化为绝对质量评分的有效方法。通过构建大规模的比较数据集,并采用软比较和最大后验估计,使得LMM能够更准确地评估图像质量。
技术框架:Compare2Score包含训练和推理两个阶段。训练阶段,通过比较同一IQA数据集中的图像,生成scaled-up的比较指令,用于训练LMM。推理阶段,首先计算测试图像优于多个预定义锚点图像的概率矩阵,然后利用最大后验估计,根据概率矩阵优化质量分数。
关键创新:主要创新点在于:1) 提出了一种生成scaled-up比较指令的方法,能够更灵活地整合不同的IQA数据集;2) 提出了一种软比较方法,超越了传统的二元选择,能够更准确地反映图像质量的相对关系;3) 提出了一种基于概率矩阵和最大后验估计的质量分数优化方法,能够有效提高评分准确性。
关键设计:在训练阶段,使用了对比学习损失函数,鼓励LMM学习区分不同质量的图像。在推理阶段,锚点图像的选择对最终结果有重要影响,论文可能采用了某种策略来选择合适的锚点图像。最大后验估计的具体实现细节(例如先验分布的选择)未知。
🖼️ 关键图片
📊 实验亮点
Compare2Score在九个IQA数据集上取得了优于现有SOTA模型的性能。实验结果表明,该模型能够有效地将文本定义的比较级别转化为单图像质量分数,并且基于概率矩阵的推理转换方法不仅提高了Compare2Score的评分准确性,还提高了零样本通用LMM的评分准确性,验证了其内在有效性。具体的性能提升幅度未知。
🎯 应用场景
该研究成果可应用于图像/视频质量监控、图像增强算法评估、图像压缩算法优化等领域。通过自动评估图像质量,可以提升用户体验,降低人工评估成本,并为图像处理算法的改进提供客观依据。该方法具有良好的通用性和可扩展性,有望在更多图像相关领域发挥作用。
📄 摘要(原文)
While recent advancements in large multimodal models (LMMs) have significantly improved their abilities in image quality assessment (IQA) relying on absolute quality rating, how to transfer reliable relative quality comparison outputs to continuous perceptual quality scores remains largely unexplored. To address this gap, we introduce Compare2Score-an all-around LMM-based no-reference IQA (NR-IQA) model, which is capable of producing qualitatively comparative responses and effectively translating these discrete comparative levels into a continuous quality score. Specifically, during training, we present to generate scaled-up comparative instructions by comparing images from the same IQA dataset, allowing for more flexible integration of diverse IQA datasets. Utilizing the established large-scale training corpus, we develop a human-like visual quality comparator. During inference, moving beyond binary choices, we propose a soft comparison method that calculates the likelihood of the test image being preferred over multiple predefined anchor images. The quality score is further optimized by maximum a posteriori estimation with the resulting probability matrix. Extensive experiments on nine IQA datasets validate that the Compare2Score effectively bridges text-defined comparative levels during training with converted single image quality score for inference, surpassing state-of-the-art IQA models across diverse scenarios. Moreover, we verify that the probability-matrix-based inference conversion not only improves the rating accuracy of Compare2Score but also zero-shot general-purpose LMMs, suggesting its intrinsic effectiveness.