PreResQ-R1: Towards Fine-Grained Rank-and-Score Reinforcement Learning for Visual Quality Assessment via Preference-Response Disentangled Policy Optimization

📄 arXiv: 2511.05393v1 📥 PDF

作者: Zehui Feng, Tian Qiu, Tong Wu, Junxuan Li, Huayuan Xu, Ting Han

分类: cs.CV

发布日期: 2025-11-07

备注: 27 pages, 14 figures, under review as a conference paper


💡 一句话要点

PreResQ-R1:通过解耦偏好-响应策略优化,实现视觉质量评估的细粒度排序和评分强化学习

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉质量评估 强化学习 多模态学习 偏好学习 排序学习 链式思考 视频质量评估

📋 核心要点

  1. 现有视觉质量评估方法依赖监督微调或仅排序目标,导致推理能力不足,分数校准差,泛化能力受限。
  2. PreResQ-R1通过解耦偏好-响应的强化学习框架,统一绝对分数回归和相对排序一致性,提升推理能力。
  3. 实验结果表明,PreResQ-R1在多个IQA和VQA基准测试中取得了SOTA结果,并生成了与人类对齐的推理轨迹。

📝 摘要(中文)

视觉质量评估(QA)旨在预测人类对视觉保真度的感知判断。虽然最近的多模态大型语言模型(MLLM)在推理图像和视频质量方面显示出潜力,但现有方法主要依赖于监督微调或仅排序目标,导致推理浅显、分数校准差以及跨域泛化能力有限。我们提出了PreResQ-R1,一个偏好-响应解耦强化学习框架,它在单个推理驱动的优化方案中统一了绝对分数回归和相对排序一致性。与之前的QA方法不同,PreResQ-R1引入了一个双分支奖励公式,分别对样本内响应一致性和样本间偏好对齐进行建模,并通过群体相对策略优化(GRPO)进行优化。这种设计鼓励了对感知质量进行细粒度、稳定和可解释的链式思考推理。为了扩展到静态图像之外,我们进一步设计了一种用于视频质量评估的全局-时间和局部-空间数据流策略。值得注意的是,仅在6K图像和28K视频上进行强化微调,PreResQ-R1在SRCC和PLCC指标下,在10个IQA和5个VQA基准测试中取得了最先进的结果,在IQA任务中分别超过了5.30%和2.15%。除了定量收益外,它还产生了与人类对齐的推理轨迹,揭示了质量判断背后的感知线索。代码和模型已发布。

🔬 方法详解

问题定义:论文旨在解决视觉质量评估中,现有方法推理能力不足、分数校准差以及跨域泛化能力有限的问题。现有方法主要依赖于监督微调或仅排序目标,无法充分利用多模态大型语言模型(MLLM)的推理能力,导致对图像和视频质量的理解不够深入。

核心思路:论文的核心思路是通过强化学习,将绝对分数回归和相对排序一致性统一到一个优化框架中。通过解耦偏好和响应,分别建模样本内响应一致性和样本间偏好对齐,从而鼓励模型进行细粒度、稳定和可解释的链式思考推理。

技术框架:PreResQ-R1框架包含以下主要模块:1) 多模态输入编码器:用于提取图像和视频的视觉特征,并结合文本描述。2) 链式思考推理模块:利用MLLM进行质量评估的推理过程。3) 双分支奖励函数:分别建模样本内响应一致性和样本间偏好对齐。4) 群体相对策略优化(GRPO):用于优化策略,使其能够生成更准确和一致的质量评估结果。对于视频质量评估,还设计了全局-时间和局部-空间数据流策略。

关键创新:最重要的技术创新点在于偏好-响应解耦的强化学习框架和双分支奖励函数的设计。与现有方法不同,PreResQ-R1能够同时优化绝对分数和相对排序,并鼓励模型进行更深入的推理。GRPO算法的引入也提高了训练的稳定性和效率。

关键设计:双分支奖励函数分别计算样本内响应的一致性以及样本间偏好的一致性。具体而言,响应一致性奖励鼓励模型对同一图像或视频的不同区域给出一致的质量评估结果,而偏好对齐奖励则鼓励模型对不同图像或视频给出符合人类偏好的排序结果。GRPO算法通过对群体内的策略进行相对比较,从而更有效地探索策略空间。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PreResQ-R1在10个IQA和5个VQA基准测试中取得了最先进的结果,在IQA任务中,SRCC指标提升了5.30%,PLCC指标提升了2.15%。这些结果表明,PreResQ-R1能够更准确地评估图像和视频的质量,并生成与人类感知更一致的推理结果。值得注意的是,该模型仅在少量数据上进行了强化微调,就取得了显著的性能提升。

🎯 应用场景

PreResQ-R1在图像和视频质量评估领域具有广泛的应用前景,例如视频监控、图像增强、视频编码和传输等。它可以用于自动评估图像和视频的质量,从而提高用户体验和系统性能。此外,该方法还可以用于训练更强大的视觉质量评估模型,并为其他视觉任务提供支持。

📄 摘要(原文)

Visual Quality Assessment (QA) seeks to predict human perceptual judgments of visual fidelity. While recent multimodal large language models (MLLMs) show promise in reasoning about image and video quality, existing approaches mainly rely on supervised fine-tuning or rank-only objectives, resulting in shallow reasoning, poor score calibration, and limited cross-domain generalization. We propose PreResQ-R1, a Preference-Response Disentangled Reinforcement Learning framework that unifies absolute score regression and relative ranking consistency within a single reasoning-driven optimization scheme. Unlike prior QA methods, PreResQ-R1 introduces a dual-branch reward formulation that separately models intra-sample response coherence and inter-sample preference alignment, optimized via Group Relative Policy Optimization (GRPO). This design encourages fine-grained, stable, and interpretable chain-of-thought reasoning about perceptual quality. To extend beyond static imagery, we further design a global-temporal and local-spatial data flow strategy for Video Quality Assessment. Remarkably, with reinforcement fine-tuning on only 6K images and 28K videos, PreResQ-R1 achieves state-of-the-art results across 10 IQA and 5 VQA benchmarks under both SRCC and PLCC metrics, surpassing by margins of 5.30% and textbf2.15% in IQA task, respectively. Beyond quantitative gains, it produces human-aligned reasoning traces that reveal the perceptual cues underlying quality judgments. Code and model are available.