Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment

📄 arXiv: 2510.11369v1 📥 PDF

作者: Shijie Zhao, Xuanyu Zhang, Weiqi Li, Junlin Li, Li Zhang, Tianfan Xue, Jian Zhang

分类: cs.CV

发布日期: 2025-10-13


💡 一句话要点

提出RALI算法,通过对比学习对齐图像和文本表征,实现高效图像质量评估。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 图像质量评估 强化学习 对比学习 文本表征 泛化能力

📋 核心要点

  1. 基于推理的图像质量评估模型泛化性好,但推理成本高,限制了部署。
  2. 提出RALI算法,通过对比学习将图像与强化学习得到的文本表征对齐,无需推理。
  3. RALI在质量评估任务上达到与推理模型相当的泛化性能,但参数量和推理时间大幅降低。

📝 摘要(中文)

基于强化学习的图像质量评估(IQA)模型展现出卓越的泛化能力,但其内在机制和关键驱动因素在当前研究中仍未得到充分探索。此外,尽管这些模型性能优越,但其推理能耗和延迟比早期模型高出几个数量级,限制了它们在特定场景中的部署。本文通过大量实验验证并阐述,MLLM通过强化学习训练,利用其推理能力将冗余的视觉表征转换为紧凑的、跨域对齐的文本表征。这种转换正是这些基于推理的IQA模型泛化的来源。基于这一基本洞察,我们提出了一种新的算法RALI,它采用对比学习直接将图像与强化学习学习到的这些可泛化的文本表征对齐。这种方法消除了对推理过程的依赖,甚至不需要加载LLM。对于质量评分任务,该框架实现了与基于推理的模型相当的泛化性能,同时仅需要不到5%的模型参数和推理时间。

🔬 方法详解

问题定义:现有基于推理的图像质量评估模型虽然具有良好的泛化能力,但由于依赖大型语言模型(LLM)进行推理,导致计算成本高昂,推理延迟大,难以在资源受限的场景中部署。因此,如何降低推理成本,提高效率,同时保持甚至提升泛化性能,是本文要解决的核心问题。

核心思路:论文的核心思路是,通过对比学习直接将图像与强化学习训练得到的、具有良好泛化能力的文本表征对齐,从而绕过LLM的推理过程。作者认为,强化学习训练使得LLM能够将冗余的视觉信息压缩成紧凑的、跨域对齐的文本表征,而这些文本表征才是泛化能力的关键。因此,直接学习图像到这些文本表征的映射,可以避免昂贵的推理过程。

技术框架:RALI (Reasoning-Aligned Learning with Images) 算法主要包含两个部分:一是利用强化学习训练一个基于LLM的图像质量评估模型,得到高质量的文本表征;二是使用对比学习,训练一个图像编码器,使其输出的图像表征与第一步得到的文本表征尽可能接近。具体流程为:首先,使用强化学习训练一个IQA模型,该模型将图像作为输入,输出一个文本描述,该描述反映了图像的质量。然后,使用对比学习,训练一个图像编码器,该编码器将图像作为输入,输出一个向量,该向量与IQA模型输出的文本描述的向量表示尽可能接近。

关键创新:RALI算法的关键创新在于,它将强化学习和对比学习结合起来,用于图像质量评估。通过强化学习,可以得到高质量的文本表征,这些表征具有良好的泛化能力。通过对比学习,可以将图像与这些文本表征对齐,从而避免了昂贵的推理过程。与现有方法相比,RALI算法不需要加载LLM,因此计算成本更低,推理速度更快。

关键设计:RALI算法的关键设计包括:1) 使用强化学习训练IQA模型时,需要设计合适的奖励函数,以鼓励模型生成高质量的文本描述。2) 使用对比学习时,需要选择合适的对比损失函数,以确保图像表征与文本表征能够有效对齐。3) 图像编码器的网络结构需要根据具体任务进行选择,以确保能够提取到图像的关键特征。论文中使用了InfoNCE损失作为对比损失函数,并使用了ResNet作为图像编码器。

📊 实验亮点

RALI算法在图像质量评估任务上取得了显著的性能提升。实验结果表明,RALI算法在泛化性能上与基于推理的模型相当,但模型参数量降低到原来的5%以下,推理时间也大幅缩短。这表明RALI算法能够在保证性能的同时,显著降低计算成本,提高效率。

🎯 应用场景

RALI算法可应用于各种需要快速、低成本图像质量评估的场景,例如移动设备上的图像增强、视频监控系统中的图像质量监控、以及大规模图像数据集的质量控制等。该方法降低了对高性能计算资源的需求,使得高质量图像评估能够部署在边缘设备上,具有广泛的应用前景。

📄 摘要(原文)

Reasoning-based image quality assessment (IQA) models trained through reinforcement learning (RL) exhibit exceptional generalization, yet the underlying mechanisms and critical factors driving this capability remain underexplored in current research. Moreover, despite their superior performance, these models incur inference energy usage and latency orders of magnitude higher than their earlier counterparts, restricting their deployment in specific scenarios. Through extensive experiments, this paper verifies and elaborates that through RL training, MLLMs leverage their reasoning capability to convert redundant visual representations into compact, cross-domain aligned text representations. This conversion is precisely the source of the generalization exhibited by these reasoning-based IQA models. Building on this fundamental insight, we propose a novel algorithm, RALI, which employs contrastive learning to directly align images with these generalizable text representations learned by RL. This approach eliminates the reliance on reasoning processes and even obviates the need to load an LLM. For the quality scoring task, this framework achieves generalization performance comparable to reasoning-based models while requiring less than 5% of their model parameters and inference time.