QMamba: On First Exploration of Vision Mamba for Image Quality Assessment
作者: Fengbin Guan, Xin Li, Zihao Yu, Yiting Lu, Zhibo Chen
分类: cs.CV, eess.IV
发布日期: 2024-06-13 (更新: 2025-05-29)
备注: Accepted by ICML 2025
🔗 代码/项目: GITHUB
💡 一句话要点
QMamba:首次探索视觉Mamba在图像质量评估中的应用
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 图像质量评估 Mamba模型 状态空间模型 StylePrompt 迁移学习 视觉感知 深度学习
📋 核心要点
- 现有图像质量评估模型在感知能力和计算成本上存在局限性,特别是对于通用性和可迁移性方面。
- 论文提出QMamba模型,通过调整Mamba架构,并引入StylePrompt调优范式,提升模型在IQA任务上的性能。
- 实验结果表明,QMamba在多个IQA数据集上优于Swin Transformer、ViT和CNN等模型,并具有更好的可迁移性。
📝 摘要(中文)
本文首次探索了近期流行的基础模型——状态空间模型/Mamba在图像质量评估(IQA)中的应用,旨在观察和挖掘视觉Mamba的感知潜力。Mamba系列工作已在分割和分类等领域展现出显著潜力,但其感知能力仍有待探索。因此,我们提出了QMamba,通过重新审视和调整Mamba模型,使其适用于三个关键的IQA任务:特定任务IQA、通用IQA和可迁移IQA。结果表明,在感知能力和计算成本方面,QMamba明显优于现有的基础模型,如Swin Transformer、ViT和CNN。为了提高QMamba的可迁移性,我们提出了一种StylePrompt调优范式,通过注入轻量级的均值和方差提示,辅助预训练QMamba针对不同下游IQA任务进行任务自适应迁移学习。与现有的prompt调优策略相比,我们的StylePrompt能够以更低的计算成本实现更好的感知迁移。在多个合成、真实IQA数据集和跨IQA数据集上的大量实验证明了我们提出的QMamba的有效性。代码将在https://github.com/bingo-G/QMamba.git上提供。
🔬 方法详解
问题定义:论文旨在解决图像质量评估(IQA)问题,特别是针对现有模型在感知能力、计算成本以及可迁移性方面的不足。现有的基于CNN、Transformer的模型在IQA任务中存在参数量大、计算复杂度高,以及泛化能力弱等问题。
核心思路:论文的核心思路是将新兴的状态空间模型Mamba引入到IQA任务中,利用Mamba在序列建模方面的优势,提升模型对图像质量的感知能力。同时,为了提高模型的可迁移性,提出了StylePrompt调优范式,通过轻量级的均值和方差提示,实现任务自适应的迁移学习。
技术框架:QMamba的整体框架基于Mamba架构,并针对IQA任务进行了调整。主要包括以下几个阶段:1) 输入图像经过预处理后,输入到Mamba模型中提取特征;2) 利用StylePrompt进行任务自适应的特征调整;3) 将调整后的特征输入到回归模块中,预测图像质量得分。整个框架可以端到端地进行训练。
关键创新:论文的关键创新在于:1) 首次将Mamba模型应用于IQA任务,探索了其在图像质量感知方面的潜力;2) 提出了StylePrompt调优范式,通过轻量级的均值和方差提示,实现了高效的任务自适应迁移学习。这种方法在计算成本和性能之间取得了较好的平衡。
关键设计:StylePrompt的设计是关键。具体来说,对于每个IQA任务,学习一组均值和方差参数,并将这些参数注入到Mamba模型的特征表示中。损失函数采用均方误差(MSE)损失,用于衡量预测的图像质量得分与真实得分之间的差距。Mamba模型的具体参数设置遵循原始论文的建议,并根据IQA任务的特点进行微调。
🖼️ 关键图片
📊 实验亮点
实验结果表明,QMamba在多个合成和真实的IQA数据集上取得了显著的性能提升。例如,在CSIQ数据集上,QMamba的性能优于Swin Transformer和ViT等模型。此外,StylePrompt调优范式在跨数据集迁移学习中也表现出良好的效果,证明了QMamba具有较强的泛化能力。
🎯 应用场景
QMamba在图像质量评估领域具有广泛的应用前景,可用于图像压缩、图像增强、图像传输等场景中的质量评估。该研究成果有助于提升图像处理系统的性能和用户体验,并为未来的图像质量评估研究提供新的思路。
📄 摘要(原文)
In this work, we take the first exploration of the recently popular foundation model, i.e., State Space Model/Mamba, in image quality assessment (IQA), aiming at observing and excavating the perception potential in vision Mamba. A series of works on Mamba has shown its significant potential in various fields, e.g., segmentation and classification. However, the perception capability of Mamba remains under-explored. Consequently, we propose QMamba by revisiting and adapting the Mamba model for three crucial IQA tasks, i.e., task-specific, universal, and transferable IQA, which reveals its clear advantages over existing foundational models, e.g., Swin Transformer, ViT, and CNNs, in terms of perception and computational cost. To improve the transferability of QMamba, we propose the StylePrompt tuning paradigm, where lightweight mean and variance prompts are injected to assist task-adaptive transfer learning of pre-trained QMamba for different downstream IQA tasks. Compared with existing prompt tuning strategies, our StylePrompt enables better perceptual transfer with lower computational cost. Extensive experiments on multiple synthetic, authentic IQA datasets, and cross IQA datasets demonstrate the effectiveness of our proposed QMamba. The code will be available at: https://github.com/bingo-G/QMamba.git