VisualQuality-R1: Reasoning-Induced Image Quality Assessment via Reinforcement Learning to Rank

📄 arXiv: 2505.14460v2 📥 PDF

作者: Tianhe Wu, Jian Zou, Jie Liang, Lei Zhang, Kede Ma

分类: cs.CV

发布日期: 2025-05-20 (更新: 2025-10-21)


💡 一句话要点

提出VisualQuality-R1,通过强化学习排序实现推理驱动的图像质量评估。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 图像质量评估 无参考质量评估 强化学习 排序学习 视觉推理 深度学习 图像处理

📋 核心要点

  1. 现有NR-IQA方法缺乏有效的视觉推理能力,难以准确评估图像质量。
  2. VisualQuality-R1利用强化学习,通过推理生成多个质量评分,并进行排序学习。
  3. 实验表明,VisualQuality-R1在多个数据集上优于现有方法,并能生成人类对齐的质量描述。

📝 摘要(中文)

DeepSeek-R1已证明通过强化学习激励大型语言模型(LLMs)的推理和泛化能力非常有效。然而,推理驱动的计算在图像质量评估(IQA)中的潜力尚未得到充分探索,而IQA是一项严重依赖视觉推理的任务。本文介绍了一种推理驱动的无参考IQA (NR-IQA)模型VisualQuality-R1,并使用强化学习进行排序训练,这是一种专为视觉质量的内在相对性质量身定制的学习算法。具体来说,对于一对图像,我们采用群体相对策略优化为每个图像生成多个质量分数。这些估计值用于计算在瑟斯顿模型下,一张图像比另一张图像具有更高质量的比较概率。每个质量估计的奖励使用连续保真度度量而不是离散的二元标签来定义。大量实验表明,所提出的VisualQuality-R1始终优于基于判别深度学习的NR-IQA模型以及最近的推理驱动的质量回归方法。此外,VisualQuality-R1能够生成上下文丰富、与人类对齐的质量描述,并支持多数据集训练,而无需感知尺度重新对齐。这些特性使得VisualQuality-R1特别适合可靠地衡量超分辨率和图像生成等各种图像处理任务的进展。

🔬 方法详解

问题定义:论文旨在解决无参考图像质量评估(NR-IQA)问题,即在没有原始参考图像的情况下,自动评估图像的质量。现有基于深度学习的NR-IQA方法通常采用判别式学习,直接回归质量分数,缺乏对图像内容进行深入推理的能力,难以捕捉复杂的失真模式和人类感知。

核心思路:论文的核心思路是利用强化学习(RL)来引导模型进行推理,从而更准确地评估图像质量。通过让模型生成多个质量估计,并根据这些估计进行排序学习,可以更好地模拟人类对图像质量的相对判断过程。这种方法借鉴了DeepSeek-R1在语言模型上的成功经验,将其应用于视觉领域。

技术框架:VisualQuality-R1的整体框架包括以下几个主要模块:1) 特征提取模块:用于提取图像的视觉特征。2) 推理模块:基于提取的特征,生成多个质量估计。3) 排序学习模块:利用强化学习算法,根据生成的质量估计进行排序,并优化模型参数。具体而言,论文采用群体相对策略优化(Group Relative Policy Optimization)算法,为每张图像生成多个质量分数,并使用瑟斯顿模型(Thurstone model)计算比较概率。

关键创新:论文的关键创新在于将强化学习引入NR-IQA任务,并设计了一种推理驱动的质量评估方法。与传统的判别式学习方法不同,VisualQuality-R1通过生成多个质量估计并进行排序学习,模拟了人类的推理过程,从而提高了评估的准确性和鲁棒性。此外,论文还提出了一种基于连续保真度度量的奖励函数,避免了使用离散的二元标签,从而更好地指导模型的学习。

关键设计:在具体实现上,论文采用了以下关键设计:1) 使用预训练的深度学习模型(具体模型未知)作为特征提取器。2) 设计了基于循环神经网络(RNN)的推理模块,用于生成多个质量估计。3) 采用了群体相对策略优化算法,并使用瑟斯顿模型计算比较概率。4) 定义了基于连续保真度度量的奖励函数,例如PSNR、SSIM等。具体的网络结构和参数设置在论文中可能有所描述,但此处未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,VisualQuality-R1在多个公开数据集上取得了显著的性能提升,优于现有的基于深度学习的NR-IQA模型以及推理驱动的质量回归方法。具体而言,VisualQuality-R1在评估准确性、鲁棒性和人类一致性方面均表现出色。此外,VisualQuality-R1还能够生成上下文丰富、与人类对齐的质量描述,并支持多数据集训练,无需感知尺度重新对齐。

🎯 应用场景

VisualQuality-R1可广泛应用于图像处理和计算机视觉领域,例如超分辨率、图像生成、图像压缩等。它可以作为一种可靠的质量评估工具,用于衡量不同算法的性能,并指导算法的优化。此外,VisualQuality-R1还可以用于图像质量监控、图像检索等应用场景,具有重要的实际价值和广阔的应用前景。

📄 摘要(原文)

DeepSeek-R1 has demonstrated remarkable effectiveness in incentivizing reasoning and generalization capabilities of large language models (LLMs) through reinforcement learning. Nevertheless, the potential of reasoning-induced computation has not been thoroughly explored in the context of image quality assessment (IQA), a task depending critically on visual reasoning. In this paper, we introduce VisualQuality-R1, a reasoning-induced no-reference IQA (NR-IQA) model, and we train it with reinforcement learning to rank, a learning algorithm tailored to the intrinsically relative nature of visual quality. Specifically, for a pair of images, we employ group relative policy optimization to generate multiple quality scores for each image. These estimates are used to compute comparative probabilities of one image having higher quality than the other under the Thurstone model. Rewards for each quality estimate are defined using continuous fidelity measures rather than discretized binary labels. Extensive experiments show that the proposed VisualQuality-R1 consistently outperforms discriminative deep learning-based NR-IQA models as well as a recent reasoning-induced quality regression method. Moreover, VisualQuality-R1 is capable of generating contextually rich, human-aligned quality descriptions, and supports multi-dataset training without requiring perceptual scale realignment. These features make VisualQuality-R1 especially well-suited for reliably measuring progress in a wide range of image processing tasks like super-resolution and image generation.