Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

作者: Jian Sun, Mohammad H. Mahoor

分类: cs.CV

发布日期: 2026-03-11

备注: 9 figures, 10 tables,

期刊: Neural Comput & Applic 38, 107 (2026)

DOI: 10.1007/s00521-026-11949-9

💡 一句话要点

提出基于对比学习的视频质量评估联合视频视觉Transformer用于视频识别，提升低质量视频分类精度。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 视频质量评估 视频分类 自监督学习 视频视觉Transformer 对比学习

📋 核心要点

现有视频分类方法在低质量视频上表现不佳，忽略了视频质量对分类性能的影响。
提出Combined-SSL机制，将视频质量评估融入视频分类，利用视频质量评分调整特征图，并反过来利用分类任务优化VQA。
在I-CONECT数据集上，SSL-V3在访谈视频分类中达到94.87%的准确率，验证了其有效性。

📝 摘要（中文）

视频质量对视频分类有显著影响。研究发现，在清晰视频上进行轻度认知障碍分类效果良好，但在模糊视频上效果较差。因此，本文提出了一种基于自监督学习的视频视觉Transformer，结合无参考视频质量评估（No-reference VQA），用于视频分类（SSL-V3）。SSL-V3利用Combined-SSL机制将VQA融入视频分类，并解决VQA标签稀缺问题，这在视频数据集中很常见，导致无法提供准确的视频质量评分。简而言之，Combined-SSL将视频质量评分作为一个因素，直接调整视频分类的特征图。然后，该评分作为一个交汇点，连接VQA和分类，并使用监督分类任务来调整VQA的参数。SSL-V3在两个数据集上取得了稳健的实验结果。例如，在I-CONECT（一个涉及面部视频的医疗保健数据集）中的一些访谈视频上，它达到了94.87%的准确率，验证了SSL-V3的有效性。

🔬 方法详解

问题定义：论文旨在解决视频分类任务中，由于视频质量下降导致分类精度降低的问题。现有方法通常忽略视频质量的影响，导致在低质量视频上的分类性能显著下降。特别是在医疗健康等领域，视频质量参差不齐，严重影响了诊断的准确性。

核心思路：论文的核心思路是将视频质量评估（VQA）与视频分类任务联合起来，利用VQA的结果来指导视频分类，从而提高模型在低质量视频上的鲁棒性。通过共享特征表示，并使用分类任务的监督信息来优化VQA模型，从而解决VQA标签稀缺的问题。

技术框架：SSL-V3模型采用基于Transformer的视频视觉模型作为主干网络，并引入VQA模块。整体流程如下：首先，视频输入主干网络提取特征；然后，VQA模块对视频质量进行评估，得到视频质量评分；接着，Combined-SSL机制利用视频质量评分调整主干网络提取的特征图；最后，调整后的特征图用于视频分类。VQA模块和分类模块通过共享特征表示和联合训练进行优化。

关键创新：论文的关键创新在于提出了Combined-SSL机制，将VQA和视频分类任务通过自监督学习的方式联合起来。与传统方法相比，该方法能够充分利用视频质量信息，提高模型在低质量视频上的鲁棒性。此外，该方法还解决了VQA标签稀缺的问题，通过分类任务的监督信息来优化VQA模型。

关键设计：Combined-SSL机制是关键设计之一，它将视频质量评分作为一个权重，直接作用于视频分类的特征图上。具体的权重计算方式和特征融合方法（例如，加权求和、注意力机制等）在论文中可能有所描述，但摘要中未明确指出。损失函数由分类损失和VQA损失组成，其中分类损失采用交叉熵损失，VQA损失可能采用均方误差损失或类似的回归损失函数。网络结构方面，主干网络采用视频视觉Transformer，VQA模块的具体结构（例如，卷积神经网络、循环神经网络等）未知。

🖼️ 关键图片

📊 实验亮点

SSL-V3在I-CONECT数据集的访谈视频分类任务中取得了94.87%的准确率，验证了其有效性。虽然摘要中没有提供与其他基线方法的对比数据，但该结果表明SSL-V3在处理低质量视频分类问题上具有显著优势。具体提升幅度未知。

🎯 应用场景

该研究成果可应用于医疗健康、智能监控、视频会议等领域。在医疗健康领域，可以提高低质量医疗视频的诊断准确率。在智能监控领域，可以提高模糊监控视频的事件识别率。在视频会议领域，可以提高网络条件不佳情况下的视频内容理解。

📄 摘要（原文）

Video quality significantly affects video classification. We found this problem when we classified Mild Cognitive Impairment well from clear videos, but worse from blurred ones. From then, we realized that referring to Video Quality Assessment (VQA) may improve video classification. This paper proposed Self-Supervised Learning-based Video Vision Transformer combined with No-reference VQA for video classification (SSL-V3) to fulfill the goal. SSL-V3 leverages Combined-SSL mechanism to join VQA into video classification and address the label shortage of VQA, which commonly occurs in video datasets, making it impossible to provide an accurate Video Quality Score. In brief, Combined-SSL takes video quality score as a factor to directly tune the feature map of the video classification. Then, the score, as an intersected point, links VQA and classification, using the supervised classification task to tune the parameters of VQA. SSL-V3 achieved robust experimental results on two datasets. For example, it reached an accuracy of 94.87% on some interview videos in the I-CONECT (a facial video-involved healthcare dataset), verifying SSL-V3's effectiveness.

Contrastive learning-based video quality assessment-jointed video vision transformer for video recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理