DPC-VQA: Decoupling Quality Perception and Residual Calibration for Video Quality Assessment
作者: Xinyue Li, Shubo Xu, Zhichao Zhang, Zhaolin Cai, Yitong Chen, Guangtao Zhai
分类: cs.CV, cs.MM
发布日期: 2026-04-14
💡 一句话要点
提出DPC-VQA,解耦质量感知与残差校准,高效评估视频质量
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频质量评估 多模态大语言模型 解耦学习 残差校准 迁移学习
📋 核心要点
- 现有MLLM的VQA方法需要大量重训练和MOS标注,成本高昂,难以适应新场景。
- DPC-VQA解耦质量感知与残差校准,利用预训练MLLM的感知先验,通过轻量级校准分支进行场景自适应。
- 实验表明,DPC-VQA在UGC和AIGC数据集上表现出色,参数量和数据需求远低于传统方法。
📝 摘要(中文)
本文提出了一种解耦感知与校准的视频质量评估框架DPC-VQA,旨在解决多模态大语言模型(MLLM)在视频质量评估(VQA)任务中,因大规模重训练和昂贵的主观意见评分(MOS)标注而导致的应用成本高昂的问题。DPC-VQA利用预训练的MLLM提供基础质量估计和感知先验,并采用轻量级的校准分支来预测目标场景的残差校正。这种设计避免了代价高昂的端到端重训练,同时以较低的训练和数据成本保持了可靠的性能。在用户生成内容(UGC)和人工智能生成内容(AIGC)基准上的大量实验表明,DPC-VQA实现了与代表性基线相当的性能,同时仅使用了传统基于MLLM的VQA方法不到2%的可训练参数,并且仅使用20%的MOS标签仍然有效。
🔬 方法详解
问题定义:现有基于多模态大语言模型(MLLM)的视频质量评估(VQA)方法,在面对新的视频内容场景时,通常需要进行大规模的端到端重训练,并且依赖于大量的、昂贵的主观意见评分(MOS)标注数据。这使得这些方法在实际应用中成本高昂,难以快速适应新的场景。因此,如何降低MLLM在VQA任务中的训练成本和数据依赖性,成为了一个亟待解决的问题。
核心思路:DPC-VQA的核心思路是将视频质量评估任务解耦为两个阶段:质量感知和残差校准。作者认为,预训练的MLLM已经具备了较好的视频质量感知能力,可以提供一个基础的质量估计。因此,只需要针对目标场景,对这个基础估计进行一个残差校准,就可以得到最终的质量评估结果。这种解耦的方式可以避免对整个MLLM进行重训练,从而大大降低了训练成本和数据依赖性。
技术框架:DPC-VQA的整体框架包括两个主要模块:一个冻结的预训练MLLM和一个轻量级的校准分支。首先,将输入的视频帧输入到冻结的MLLM中,得到一个基础的质量估计。然后,将这个基础估计输入到校准分支中,校准分支预测一个残差校正值。最后,将基础估计和残差校正值相加,得到最终的视频质量评估结果。整个框架采用端到端的方式进行训练,但只有校准分支是可训练的。
关键创新:DPC-VQA最关键的创新点在于将视频质量评估任务解耦为质量感知和残差校准两个阶段。这种解耦的方式充分利用了预训练MLLM的感知能力,避免了对整个MLLM进行重训练,从而大大降低了训练成本和数据依赖性。与现有方法相比,DPC-VQA可以在使用更少的训练数据和更少的计算资源的情况下,达到与现有方法相当甚至更好的性能。
关键设计:DPC-VQA的关键设计包括以下几个方面:1) 冻结预训练MLLM:为了充分利用预训练MLLM的感知能力,DPC-VQA选择冻结MLLM的参数,只训练校准分支。2) 轻量级校准分支:为了降低训练成本,DPC-VQA采用了一个轻量级的校准分支,该分支通常由几个全连接层或卷积层组成。3) 残差校正:DPC-VQA采用残差校正的方式,将校准分支的输出作为一个残差值,加到MLLM的基础估计上,得到最终的质量评估结果。4) 损失函数:DPC-VQA采用均方误差(MSE)作为损失函数,用于衡量预测的质量评估结果与真实MOS之间的差距。
🖼️ 关键图片
📊 实验亮点
DPC-VQA在UGC和AIGC数据集上取得了显著的成果。相比于传统的MLLM-based VQA方法,DPC-VQA仅使用了不到2%的可训练参数,并且在只使用20%的MOS标签的情况下,仍然能够达到具有竞争力的性能。这些实验结果表明,DPC-VQA是一种高效且有效的视频质量评估方法。
🎯 应用场景
DPC-VQA具有广泛的应用前景,可用于视频监控、视频会议、在线教育、游戏直播等领域,提升用户体验。该方法降低了VQA模型的训练成本和数据依赖性,使得在资源受限的环境下部署高质量的视频质量评估系统成为可能。未来,该方法可以进一步扩展到其他多媒体质量评估任务中,例如图像质量评估、音频质量评估等。
📄 摘要(原文)
Recent multimodal large language models (MLLMs) have shown promising performance on video quality assessment (VQA) tasks. However, adapting them to new scenarios remains expensive due to large-scale retraining and costly mean opinion score (MOS) annotations. In this paper, we argue that a pretrained MLLM already provides a useful perceptual prior for VQA, and that the main challenge is to efficiently calibrate this prior to the target MOS space. Based on this insight, we propose DPC-VQA, a decoupling perception and calibration framework for video quality assessment. Specifically, DPC-VQA uses a frozen MLLM to provide a base quality estimate and perceptual prior, and employs a lightweight calibration branch to predict a residual correction for target-scenario adaptation. This design avoids costly end-to-end retraining while maintaining reliable performance with lower training and data costs. Extensive experiments on both user-generated content (UGC) and AI-generated content (AIGC) benchmarks show that DPC-VQA achieves competitive performance against representative baselines, while using less than 2% of the trainable parameters of conventional MLLM-based VQA methods and remaining effective with only 20\% of MOS labels. The code will be released upon publication.