Q-Insight: Understanding Image Quality via Visual Reinforcement Learning

📄 arXiv: 2503.22679v2 📥 PDF

作者: Weiqi Li, Xuanyu Zhang, Shijie Zhao, Yabin Zhang, Junlin Li, Li Zhang, Jian Zhang

分类: cs.CV

发布日期: 2025-03-28 (更新: 2025-05-23)

🔗 代码/项目: GITHUB


💡 一句话要点

Q-Insight:基于视觉强化学习的图像质量理解模型

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像质量评估 强化学习 多模态大语言模型 视觉推理 组相对策略优化

📋 核心要点

  1. 现有基于MLLM的图像质量评估方法依赖大量标注数据进行监督微调,或缺乏可解释性,限制了其灵活性和泛化能力。
  2. Q-Insight利用强化学习,通过组相对策略优化,联合优化评分回归和退化感知任务,提升图像质量理解的视觉推理能力。
  3. 实验表明,Q-Insight在评分回归、退化感知和零样本比较推理任务中均优于现有方法,展现了其优越的性能。

📝 摘要(中文)

图像质量评估(IQA)关注图像的感知视觉质量,在图像重建、压缩和生成等下游任务中起着关键作用。多模态大型语言模型(MLLM)的快速发展极大地扩展了IQA的范围,使其朝着综合的图像质量理解发展,包括内容分析、退化感知和比较推理,而不仅仅是数值评分。以往基于MLLM的方法通常要么生成缺乏可解释性的数值分数,要么严重依赖使用大规模标注数据集进行监督微调(SFT)以提供描述性评估,限制了它们的灵活性和适用性。本文提出了Q-Insight,一个基于强化学习的模型,建立在组相对策略优化(GRPO)之上,它展示了强大的视觉推理能力,用于图像质量理解,同时只需要少量的评分和退化标签。通过精心设计的奖励函数,联合优化评分回归和退化感知任务,我们的方法有效地利用了它们的互惠互利,从而提高了性能。大量的实验表明,Q-Insight在评分回归和退化感知任务中都大大优于现有的最先进方法,同时在比较推理任务中表现出令人印象深刻的零样本泛化能力。

🔬 方法详解

问题定义:论文旨在解决现有基于多模态大型语言模型(MLLM)的图像质量评估方法存在的局限性。这些方法要么生成缺乏可解释性的数值评分,要么需要大规模标注数据集进行监督微调,导致泛化能力不足,难以适应新的图像质量评估场景。现有方法难以同时兼顾评分准确性、可解释性和泛化能力。

核心思路:Q-Insight的核心思路是利用强化学习,特别是组相对策略优化(GRPO),来训练一个能够理解图像质量的模型。通过将图像质量评估任务建模为一个强化学习问题,模型可以通过与环境的交互学习如何给出准确且可解释的评分,并感知图像的退化类型。这种方法避免了对大规模标注数据的依赖,提高了模型的泛化能力。

技术框架:Q-Insight的整体框架包含以下几个主要模块:1) 图像编码器:用于提取图像的视觉特征。2) 策略网络:基于视觉特征生成图像质量评分和退化类型的预测。3) 奖励函数:用于评估策略网络生成的评分和退化类型预测的质量,并提供反馈信号。4) 组相对策略优化(GRPO):用于优化策略网络,使其能够生成更准确和可解释的评分和退化类型预测。模型通过不断与环境交互,根据奖励函数的反馈调整策略,最终学习到一种有效的图像质量评估策略。

关键创新:Q-Insight的关键创新在于将强化学习引入图像质量评估任务,并提出了基于组相对策略优化的训练方法。与传统的监督学习方法相比,强化学习方法能够更好地利用未标注数据,提高模型的泛化能力。此外,通过精心设计的奖励函数,Q-Insight能够同时优化评分回归和退化感知任务,从而提高模型的整体性能。

关键设计:Q-Insight的关键设计包括:1) 奖励函数的设计:奖励函数综合考虑了评分的准确性和退化类型预测的准确性,并引入了正则化项,以避免过拟合。2) 组相对策略优化(GRPO):GRPO通过比较同一组图像的评分,来提高评分的相对准确性。3) 网络结构的设计:策略网络采用了多层感知机(MLP)结构,以提高模型的表达能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

Q-Insight在评分回归和退化感知任务中均取得了显著的性能提升。在评分回归任务中,Q-Insight优于现有的最先进方法。在退化感知任务中,Q-Insight能够准确地识别图像的退化类型。此外,Q-Insight在零样本比较推理任务中也表现出令人印象深刻的泛化能力,证明了其强大的视觉推理能力。

🎯 应用场景

Q-Insight具有广泛的应用前景,可用于图像压缩、图像重建、图像生成等领域。它可以帮助优化图像处理算法,提高图像质量,改善用户体验。此外,Q-Insight还可以应用于图像质量监控、图像检索等领域,为相关应用提供技术支持。未来,该研究有望推动图像质量评估技术的发展,并为更多领域带来实际价值。

📄 摘要(原文)

Image quality assessment (IQA) focuses on the perceptual visual quality of images, playing a crucial role in downstream tasks such as image reconstruction, compression, and generation. The rapid advancement of multi-modal large language models (MLLMs) has significantly broadened the scope of IQA, moving toward comprehensive image quality understanding that incorporates content analysis, degradation perception, and comparison reasoning beyond mere numerical scoring. Previous MLLM-based methods typically either generate numerical scores lacking interpretability or heavily rely on supervised fine-tuning (SFT) using large-scale annotated datasets to provide descriptive assessments, limiting their flexibility and applicability. In this paper, we propose Q-Insight, a reinforcement learning-based model built upon group relative policy optimization (GRPO), which demonstrates strong visual reasoning capability for image quality understanding while requiring only a limited amount of rating scores and degradation labels. By jointly optimizing score regression and degradation perception tasks with carefully designed reward functions, our approach effectively exploits their mutual benefits for enhanced performance. Extensive experiments demonstrate that Q-Insight substantially outperforms existing state-of-the-art methods in both score regression and degradation perception tasks, while exhibiting impressive zero-shot generalization to comparison reasoning tasks. Code will be available at https://github.com/lwq20020127/Q-Insight.