RankDVQA-mini: Knowledge Distillation-Driven Deep Video Quality Assessment
作者: Chen Feng, Duolikun Danier, Haoran Wang, Fan Zhang, Benoit Vallade, Alex Mackin, David Bull
分类: eess.IV, cs.CV
发布日期: 2023-12-14 (更新: 2024-03-07)
备注: The paper has been accepted by Picture Coding Symposium (PCS) 2024
DOI: 10.1109/PCS60826.2024.10566364
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出RankDVQA-mini,通过知识蒸馏压缩RankDVQA模型,实现轻量化视频质量评估。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 视频质量评估 深度学习 知识蒸馏 模型压缩 模型剪枝
📋 核心要点
- 深度VQA模型计算复杂度高、内存需求大,限制了其在实际场景中的部署。
- 采用剪枝和多层次知识蒸馏,在保证性能的前提下,显著降低模型大小和运行时间。
- RankDVQA-mini模型参数量仅为原模型的10%,FLOPs为14%,但性能优于多数现有深度VQA方法。
📝 摘要(中文)
基于深度学习的视频质量评估(deep VQA)在超越传统指标方面展现出巨大潜力,并在与人类感知相关性方面取得了可喜的改进。然而,由于其高计算复杂性和大内存需求,这种深度VQA模型的实际部署常常受到限制。为了解决这个问题,我们的目标是通过采用一个两阶段的工作流程,将剪枝驱动的模型压缩与多层次知识蒸馏相结合,从而显著降低最先进的深度VQA方法之一RankDVQA的模型大小和运行时间。由此产生的轻量级全参考质量指标RankDVQA-mini,与完整版本相比,只需要不到10%的模型参数(在FLOPs方面为14%),同时仍然保持着优于大多数现有深度VQA方法的质量预测性能。RankDVQA-mini的源代码已在https://chenfeng-bristol.github.io/RankDVQA-mini/上发布,供公众评估。
🔬 方法详解
问题定义:现有深度视频质量评估(VQA)模型通常具有较高的计算复杂度和较大的模型尺寸,这使得它们难以在资源受限的设备或实时应用中部署。RankDVQA作为一种先进的深度VQA方法,虽然性能优异,但也面临着同样的问题。因此,需要一种方法来压缩模型,降低计算成本,同时保持其质量评估的准确性。
核心思路:本文的核心思路是利用知识蒸馏和模型剪枝技术,将RankDVQA模型压缩成一个更小的、更高效的版本,即RankDVQA-mini。知识蒸馏允许小型模型(学生模型)学习大型模型(教师模型)的知识,从而在参数量减少的情况下保持性能。模型剪枝则通过移除不重要的连接或参数来进一步减小模型尺寸。
技术框架:该方法采用两阶段工作流程:首先,使用剪枝技术压缩RankDVQA模型,减少参数量和计算量。然后,利用多层次知识蒸馏,将原始RankDVQA模型的知识迁移到压缩后的模型RankDVQA-mini。多层次知识蒸馏可能包括特征层面的蒸馏和输出层面的蒸馏,以确保学生模型能够学习到教师模型的各个方面的知识。
关键创新:该方法的主要创新在于将剪枝和多层次知识蒸馏相结合,有效地压缩了RankDVQA模型,同时保持了其高质量的评估性能。通过这种方式,RankDVQA-mini在模型尺寸和计算复杂度上都得到了显著降低,使其更适合于实际应用。此外,针对视频质量评估任务,对知识蒸馏策略进行了优化。
关键设计:具体的剪枝策略(例如,基于权重的剪枝或基于激活的剪枝)和剪枝比例需要仔细选择,以避免过度剪枝导致性能下降。多层次知识蒸馏的具体实现方式,例如使用的损失函数(例如,L1损失、L2损失、KL散度等)和蒸馏的层数,也需要根据实验结果进行调整。此外,RankDVQA-mini的网络结构设计也需要考虑,以确保其能够有效地学习教师模型的知识。
📊 实验亮点
RankDVQA-mini模型参数量仅为原模型的10%,FLOPs降低至14%,同时在视频质量评估性能上优于大多数现有的深度VQA方法。这一结果表明,通过知识蒸馏和模型剪枝,可以在显著降低模型复杂度的同时,保持甚至提升模型的性能。
🎯 应用场景
RankDVQA-mini可应用于视频流媒体服务、视频会议系统、视频监控等领域,用于实时评估和优化视频质量,提升用户体验。其轻量化的特性使其能够部署在移动设备、嵌入式系统等资源受限的平台上,具有广泛的应用前景。
📄 摘要(原文)
Deep learning-based video quality assessment (deep VQA) has demonstrated significant potential in surpassing conventional metrics, with promising improvements in terms of correlation with human perception. However, the practical deployment of such deep VQA models is often limited due to their high computational complexity and large memory requirements. To address this issue, we aim to significantly reduce the model size and runtime of one of the state-of-the-art deep VQA methods, RankDVQA, by employing a two-phase workflow that integrates pruning-driven model compression with multi-level knowledge distillation. The resulting lightweight full reference quality metric, RankDVQA-mini, requires less than 10% of the model parameters compared to its full version (14% in terms of FLOPs), while still retaining a quality prediction performance that is superior to most existing deep VQA methods. The source code of the RankDVQA-mini has been released at https://chenfeng-bristol.github.io/RankDVQA-mini/ for public evaluation.