InternVQA: Advancing Compressed Video Quality Assessment with Distilling Large Foundation Model

📄 arXiv: 2502.19026v1 📥 PDF

作者: Fengbin Guan, Zihao Yu, Yiting Lu, Xin Li, Zhibo Chen

分类: eess.IV, cs.AI, cs.CV

发布日期: 2025-02-26

备注: Accepted by ISCAS 2025(Lecture)


💡 一句话要点

提出基于InternVideo2蒸馏的轻量级模型,用于提升压缩视频质量评估性能

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频质量评估 压缩视频 知识蒸馏 视频基础模型 InternVideo2

📋 核心要点

  1. 现有视频质量评估方法缺乏对压缩视频质量的有效特征提取,尤其是在语义和时序信息方面。
  2. 论文提出一种基于知识蒸馏的方法,将大型视频基础模型InternVideo2的知识迁移到轻量级模型中,赋予其压缩质量先验。
  3. 实验结果表明,该方法在压缩视频质量评估任务上优于其他方法,验证了InternVideo2在质量评估上的迁移能力。

📝 摘要(中文)

视频质量评估任务严重依赖于视频理解所需的丰富特征,例如语义信息、纹理和时序运动。现有的视频基础模型InternVideo2,由于其庞大的参数规模和大规模多模态数据,在视频理解任务中表现出强大的潜力。在此基础上,我们探索了InternVideo2在压缩场景下视频质量评估中的可迁移性。为了设计一个适用于该任务的轻量级模型,我们提出了一种蒸馏方法,使较小的模型具备丰富的压缩质量先验知识。此外,我们还研究了蒸馏过程中不同骨干网络的性能。结果表明,与其他方法相比,我们从InternVideo2蒸馏出的轻量级模型在压缩视频质量评估中取得了优异的性能。

🔬 方法详解

问题定义:论文旨在解决压缩视频质量评估问题。现有方法通常难以充分利用视频中的语义信息、纹理细节和时序运动等关键特征,导致评估精度受限。尤其是在压缩场景下,视频质量受损,传统方法难以准确捕捉压缩伪影对感知质量的影响。

核心思路:论文的核心思路是利用大型视频基础模型InternVideo2的强大视频理解能力,通过知识蒸馏的方式,将这些能力迁移到一个轻量级的模型中。这样既能保留InternVideo2的丰富特征表示,又能降低模型的计算复杂度,使其更适用于实际应用。

技术框架:整体框架包括两个主要部分:首先,使用InternVideo2作为教师模型,提取压缩视频的特征表示。然后,设计一个轻量级的学生模型,并使用蒸馏损失函数,使其学习教师模型的输出。在训练过程中,学生模型不仅学习预测视频质量,还学习模仿教师模型的特征表示,从而获得压缩质量先验。

关键创新:论文的关键创新在于将大型视频基础模型应用于压缩视频质量评估,并提出了一种有效的蒸馏方法。通过蒸馏,轻量级模型能够继承大型模型的知识,从而在保持较低计算复杂度的同时,获得较高的评估精度。此外,论文还探索了不同骨干网络在蒸馏过程中的性能表现。

关键设计:论文的关键设计包括:选择合适的蒸馏损失函数,例如KL散度损失或特征匹配损失,以确保学生模型能够有效地学习教师模型的知识。选择合适的学生模型架构,例如轻量级的CNN或Transformer模型,以平衡性能和计算复杂度。实验中,论文探索了不同的骨干网络,并比较了它们在蒸馏过程中的性能表现。

🖼️ 关键图片

fig_0

📊 实验亮点

论文提出的基于InternVideo2蒸馏的轻量级模型在压缩视频质量评估任务上取得了显著的性能提升。实验结果表明,该模型优于其他现有的视频质量评估方法,证明了大型视频基础模型在质量评估任务上的有效性和可迁移性。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于视频编码优化、视频传输质量监控、视频内容分发等领域。通过准确评估压缩视频的质量,可以指导视频编码器选择更合适的压缩参数,提高视频传输的效率,并为用户提供更好的观看体验。此外,该方法还可以用于视频质量评估数据集的构建和标注。

📄 摘要(原文)

Video quality assessment tasks rely heavily on the rich features required for video understanding, such as semantic information, texture, and temporal motion. The existing video foundational model, InternVideo2, has demonstrated strong potential in video understanding tasks due to its large parameter size and large-scale multimodal data pertaining. Building on this, we explored the transferability of InternVideo2 to video quality assessment under compression scenarios. To design a lightweight model suitable for this task, we proposed a distillation method to equip the smaller model with rich compression quality priors. Additionally, we examined the performance of different backbones during the distillation process. The results showed that, compared to other methods, our lightweight model distilled from InternVideo2 achieved excellent performance in compression video quality assessment.