Parameter-Efficient Adaptation of mPLUG-Owl2 via Pixel-Level Visual Prompts for NR-IQA
作者: Yahya Benmahane, Mohammed El Hassouni
分类: cs.CV
发布日期: 2025-09-03 (更新: 2025-09-06)
💡 一句话要点
提出基于像素级视觉提示的mPLUG-Owl2参数高效No-Reference图像质量评估方法
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像质量评估 No-Reference IQA 多模态大语言模型 参数高效学习 视觉提示 像素级优化 mPLUG-Owl2
📋 核心要点
- 现有NR-IQA方法通常需要大量参数微调,计算成本高昂,难以适应资源受限场景。
- 该论文提出利用像素级视觉提示,仅需训练少量参数即可有效调整MLLM用于NR-IQA任务。
- 实验表明,该方法在多个数据集上取得了与全参数微调方法相当甚至更优的性能,且参数量显著降低。
📝 摘要(中文)
本文提出了一种新颖的参数高效的No-Reference图像质量评估(NR-IQA)自适应方法,该方法使用在像素空间中优化的视觉提示。与多模态大型语言模型(MLLM)的完全微调不同,我们的方法最多只训练60万个参数(<0.01%的基础模型),同时保持底层模型完全冻结。在推理过程中,这些视觉提示通过加法与图像结合,并通过mPLUG-Owl2处理,文本查询为“Rate the technical quality of the image.”。在KADID-10k、KonIQ-10k和AGIQA-3k上对失真类型(合成的、真实的、AI生成的)的评估表明,与完全微调的方法和专门的NR-IQA模型相比,具有竞争力的性能,在KADID-10k上实现了0.93的SRCC。据我们所知,这是第一项利用像素空间视觉提示进行NR-IQA的工作,从而实现了MLLM对低级视觉任务的有效适应。源代码可在https://github.com/yahya-ben/mplug2-vp-for-nriqa公开获得。
🔬 方法详解
问题定义:现有的No-Reference图像质量评估(NR-IQA)方法,特别是基于多模态大型语言模型(MLLM)的方法,通常需要对整个模型进行微调,这导致了巨大的计算开销和存储需求。在资源受限的环境中,这种全参数微调变得不可行。因此,如何以参数高效的方式将MLLM适应于NR-IQA任务是一个重要的挑战。
核心思路:该论文的核心思路是利用视觉提示(Visual Prompts)来引导MLLM关注图像中与质量相关的特征,而无需修改MLLM本身的大部分参数。通过在像素空间中优化这些视觉提示,可以使模型学习到如何更好地理解和评估图像的质量。这种方法类似于在图像上添加一层可学习的“滤镜”,从而影响模型的判断。
技术框架:整体框架包括以下几个主要步骤:1) 输入图像与可学习的像素级视觉提示进行叠加。2) 将叠加后的图像输入到冻结的mPLUG-Owl2模型中。3) 使用文本提示“Rate the technical quality of the image.”作为模型的文本输入。4) 模型输出图像质量评分。整个过程中,只有视觉提示的参数被训练,而mPLUG-Owl2模型的参数保持不变。
关键创新:该论文的关键创新在于首次将像素空间视觉提示应用于NR-IQA任务,并成功地将MLLM以参数高效的方式适应于该任务。与传统的全参数微调方法相比,该方法显著降低了计算成本和存储需求,同时保持了具有竞争力的性能。此外,该方法还探索了如何有效地利用MLLM的文本理解能力来辅助图像质量评估。
关键设计:视觉提示被设计为与输入图像具有相同尺寸的可学习参数矩阵。这些参数在训练过程中通过反向传播进行优化,以最小化预测质量评分与真实质量评分之间的差异。损失函数通常采用均方误差(MSE)或类似的回归损失函数。mPLUG-Owl2模型采用预训练的权重,并在训练过程中保持冻结。文本提示的选择也至关重要,需要能够清晰地引导模型进行质量评估。
🖼️ 关键图片
📊 实验亮点
该方法在KADID-10k数据集上实现了0.93的SRCC,与全参数微调方法和专门的NR-IQA模型相比,具有竞争力的性能。更重要的是,该方法仅训练了60万个参数,不到基础模型的0.01%,显著降低了计算成本和存储需求,实现了参数高效的MLLM自适应。
🎯 应用场景
该研究成果可广泛应用于图像质量监控、图像增强算法评估、图像压缩算法优化等领域。例如,在视频流媒体服务中,可以使用该方法实时评估用户上传图像的质量,并根据评估结果调整编码参数,以提高用户体验。此外,该方法还可以用于AI生成图像的质量评估,帮助改进生成模型的性能。
📄 摘要(原文)
In this paper, we propose a novel parameter-efficient adaptation method for No- Reference Image Quality Assessment (NR-IQA) using visual prompts optimized in pixel-space. Unlike full fine-tuning of Multimodal Large Language Models (MLLMs), our approach trains only 600K parameters at most (< 0.01% of the base model), while keeping the underlying model fully frozen. During inference, these visual prompts are combined with images via addition and processed by mPLUG-Owl2 with the textual query "Rate the technical quality of the image." Evaluations across distortion types (synthetic, realistic, AI-generated) on KADID- 10k, KonIQ-10k, and AGIQA-3k demonstrate competitive performance against full finetuned methods and specialized NR-IQA models, achieving 0.93 SRCC on KADID-10k. To our knowledge, this is the first work to leverage pixel-space visual prompts for NR-IQA, enabling efficient MLLM adaptation for low-level vision tasks. The source code is publicly available at https: // github. com/ yahya-ben/ mplug2-vp-for-nriqa.