Reasoning as Representation: Rethinking Visual Reinforcement Learning in Image Quality Assessment
作者: Shijie Zhao, Xuanyu Zhang, Weiqi Li, Junlin Li, Li Zhang, Tianfan Xue, Jian Zhang
分类: cs.CV
发布日期: 2025-10-13
💡 一句话要点
提出RALI,通过对比学习对齐图像和文本表征,实现高效通用的图像质量评估。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 图像质量评估 强化学习 对比学习 文本表征 视觉表征
📋 核心要点
- 基于推理的图像质量评估模型泛化性强,但推理成本高,且其泛化机制尚不明确。
- RALI算法通过对比学习,将图像与强化学习得到的通用文本表征对齐,无需推理过程。
- RALI在质量评估任务上,达到与推理模型相当的泛化性能,但参数量和推理时间显著降低。
📝 摘要(中文)
基于强化学习训练的、基于推理的图像质量评估(IQA)模型展现出卓越的泛化能力,但驱动这种能力的基础机制和关键因素在当前研究中仍未得到充分探索。此外,尽管这些模型性能优越,但其推理能耗和延迟比早期模型高出几个数量级,限制了它们在特定场景中的部署。本文通过大量实验验证并阐述,MLLM通过强化学习训练,利用其推理能力将冗余的视觉表征转换为紧凑的、跨域对齐的文本表征。这种转换正是这些基于推理的IQA模型展现泛化能力的原因。基于这一基本洞察,我们提出了一种新的算法RALI,它采用对比学习直接将图像与强化学习学习到的这些可泛化的文本表征对齐。这种方法消除了对推理过程的依赖,甚至不需要加载LLM。对于质量评分任务,该框架实现了与基于推理的模型相当的泛化性能,同时仅需要不到5%的模型参数和推理时间。
🔬 方法详解
问题定义:现有基于推理的图像质量评估模型虽然具有良好的泛化能力,但其推理过程依赖大型语言模型(LLM),导致计算成本高昂,推理速度慢,难以在资源受限的场景中部署。因此,如何降低推理成本,同时保持甚至提升泛化性能,是本文要解决的核心问题。
核心思路:论文的核心思路是,通过分析基于推理的模型的内部机制,发现其泛化能力来源于将视觉信息转换为通用的文本表征。因此,可以直接学习一个模型,将图像与这些通用的文本表征对齐,从而避免使用LLM进行推理。
技术框架:RALI (Reasoning-Aligned Learning for IQA) 算法主要包含两个部分:一是利用强化学习训练一个基于推理的IQA模型,得到通用的文本表征;二是使用对比学习,训练一个图像编码器,使其输出的图像表征与第一步得到的文本表征对齐。在推理阶段,只需要使用训练好的图像编码器,将图像编码为表征,然后使用一个简单的回归模型预测图像质量。
关键创新:RALI的关键创新在于,它揭示了基于推理的IQA模型的泛化能力来源于其学习到的通用文本表征,并提出了一种直接学习图像到文本表征映射的方法,从而避免了使用LLM进行推理。这种方法在保持泛化性能的同时,显著降低了计算成本。
关键设计:RALI算法的关键设计包括:1) 使用强化学习训练基于推理的IQA模型,以获得高质量的文本表征;2) 使用对比损失函数,例如InfoNCE,来对齐图像和文本表征;3) 精心设计图像编码器的网络结构,使其能够有效地提取图像特征。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,RALI算法在多个图像质量评估数据集上取得了与基于推理的模型相当的泛化性能,同时模型参数量降低到原来的5%以下,推理时间也大幅缩短。这证明了RALI算法在保持性能的同时,显著降低了计算成本,使其更适合在实际应用中部署。
🎯 应用场景
RALI算法可应用于各种需要快速、低成本图像质量评估的场景,例如移动设备上的图像增强、视频监控系统中的图像质量监控、以及大规模图像数据集的质量筛选。该研究有助于推动图像质量评估技术在资源受限环境中的应用,并为其他视觉任务提供了一种新的解决思路。
📄 摘要(原文)
Reasoning-based image quality assessment (IQA) models trained through reinforcement learning (RL) exhibit exceptional generalization, yet the underlying mechanisms and critical factors driving this capability remain underexplored in current research. Moreover, despite their superior performance, these models incur inference energy usage and latency orders of magnitude higher than their earlier counterparts, restricting their deployment in specific scenarios. Through extensive experiments, this paper verifies and elaborates that through RL training, MLLMs leverage their reasoning capability to convert redundant visual representations into compact, cross-domain aligned text representations. This conversion is precisely the source of the generalization exhibited by these reasoning-based IQA models. Building on this fundamental insight, we propose a novel algorithm, RALI, which employs contrastive learning to directly align images with these generalizable text representations learned by RL. This approach eliminates the reliance on reasoning processes and even obviates the need to load an LLM. For the quality scoring task, this framework achieves generalization performance comparable to reasoning-based models while requiring less than 5% of their model parameters and inference time.