Seeing in the Dark: A Teacher-Student Framework for Dark Video Action Recognition via Knowledge Distillation and Contrastive Learning

📄 arXiv: 2502.03724v2 📥 PDF

作者: Sharana Dharshikgan Suresh Dass, Hrishav Bakul Barua, Ganesh Krishnasamy, Raveendran Paramesran, Raphael C. -W. Phan

分类: cs.CV, cs.AI, cs.HC, cs.LG, cs.MM

发布日期: 2025-02-06 (更新: 2025-10-19)

🔗 代码/项目: GITHUB


💡 一句话要点

ActLumos:面向暗光视频行为识别的知识蒸馏与对比学习框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)

关键词: 暗光视频行为识别 知识蒸馏 动态特征融合 对比学习 自监督学习

📋 核心要点

  1. 暗光视频行为识别面临严重挑战,现有方法难以有效提取关键时空信息,导致识别精度显著下降。
  2. ActLumos提出教师-学生框架,教师网络融合原始暗帧和增强帧,学生网络通过知识蒸馏学习教师网络的知识。
  3. 实验结果表明,ActLumos在多个暗光视频数据集上取得了显著的性能提升,超越了现有最先进的方法。

📝 摘要(中文)

本文提出ActLumos,一个教师-学生框架,旨在解决暗光或低光照视频中的行为识别问题。由于可见性降低,关键的时空细节容易丢失,使得该任务极具挑战性。ActLumos在保持多流级别精度的同时,实现了单流推理。教师网络使用双流输入,包括原始暗帧和Retinex增强帧,通过权重共享的R(2+1)D-34骨干网络处理,并通过动态特征融合(DFF)模块融合。DFF在每个时间步动态地重新加权两个流,强调信息量最大的时间段。教师网络还包含一个监督对比损失(SupCon),以锐化类间边界。学生网络共享R(2+1)D-34骨干网络,但在测试时仅使用暗帧,无需融合。学生网络首先在两个数据集的暗光视频片段上进行自监督预训练,无需标签,然后通过教师网络的知识蒸馏进行微调,将教师网络的多流知识转移到单流模型中。在单流推理下,蒸馏后的学生网络在ARID V1.0上达到了96.92%(Top-1)的最先进精度,在ARID V1.5上达到了88.27%,在Dark48上达到了48.96%。消融研究进一步突出了每个组件的贡献,即教师网络中的DFF优于单流或静态融合,知识蒸馏(KD)将这些增益转移到单流学生网络,并且双视角时空SSL优于仅空间或仅时间变体,而不会增加推理成本。该工作的官方网站可在https://github.com/HrishavBakulBarua/ActLumos 找到。

🔬 方法详解

问题定义:暗光视频行为识别旨在识别在光照条件差的环境下拍摄的视频中的人类行为。现有方法在处理此类视频时,由于光照不足导致视频质量下降,关键的时空信息难以提取,从而严重影响识别精度。现有的方法要么依赖于图像增强技术,但增强后的图像可能引入噪声或失真,要么直接在低质量的视频上进行训练,效果不佳。

核心思路:ActLumos的核心思路是利用知识蒸馏,将一个具有多流输入的教师网络的知识迁移到一个单流输入的学生网络。教师网络能够利用原始暗帧和增强帧的信息,从而学习到更鲁棒的特征表示。学生网络则可以在测试时仅使用原始暗帧,从而降低计算成本。通过知识蒸馏,学生网络可以学习到教师网络的知识,从而在单流输入的情况下也能达到较高的识别精度。

技术框架:ActLumos框架包含两个主要部分:教师网络和学生网络。教师网络接收双流输入,包括原始暗帧和Retinex增强帧。这两个流分别通过权重共享的R(2+1)D-34骨干网络进行处理。然后,一个动态特征融合(DFF)模块用于融合这两个流的特征。DFF模块在每个时间步动态地重新加权两个流,从而强调信息量最大的时间段。教师网络还包含一个监督对比损失(SupCon),用于锐化类间边界。学生网络共享R(2+1)D-34骨干网络,但在测试时仅使用原始暗帧。学生网络首先在两个数据集的暗光视频片段上进行自监督预训练,然后通过教师网络的知识蒸馏进行微调。

关键创新:ActLumos的关键创新点在于:1) 提出了一个动态特征融合(DFF)模块,可以动态地融合原始暗帧和增强帧的特征,从而更好地利用这两种信息。2) 使用了监督对比损失(SupCon),可以锐化类间边界,从而提高识别精度。3) 利用知识蒸馏,将教师网络的知识迁移到学生网络,从而在单流输入的情况下也能达到较高的识别精度。与现有方法的本质区别在于,ActLumos能够有效地利用原始暗帧和增强帧的信息,并且能够通过知识蒸馏将这些信息迁移到单流模型中。

关键设计:教师网络使用R(2+1)D-34作为骨干网络,这是一个常用的视频行为识别网络。DFF模块使用一个小的神经网络来计算两个流的权重。监督对比损失(SupCon)使用温度参数τ=0.1。知识蒸馏使用softmax温度T=4。学生网络的自监督预训练使用对比学习,正样本为同一视频的不同片段,负样本为不同视频的片段。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ActLumos在ARID V1.0上达到了96.92%(Top-1)的精度,在ARID V1.5上达到了88.27%的精度,在Dark48上达到了48.96%的精度,均超过了现有最先进的方法。消融实验表明,DFF模块和知识蒸馏都对性能提升有显著贡献。双视角时空SSL优于仅空间或仅时间变体,且不增加推理成本。

🎯 应用场景

ActLumos在安防监控、自动驾驶、医疗诊断等领域具有广泛的应用前景。例如,在安防监控中,ActLumos可以用于识别在光照条件差的环境下发生的异常行为。在自动驾驶中,ActLumos可以用于识别在夜间或隧道中行驶的车辆和行人。在医疗诊断中,ActLumos可以用于分析在光照条件差的环境下拍摄的内窥镜视频。

📄 摘要(原文)

Action recognition in dark or low-light (under-exposed) videos is a challenging task due to visibility degradation, which can hinder critical spatiotemporal details. This paper proposes ActLumos, a teacher-student framework that attains single-stream inference while retaining multi-stream level accuracy. The teacher consumes dual stream inputs, which include original dark frames and retinex-enhanced frames, processed by weight-shared R(2+1)D-34 backbones and fused by a Dynamic Feature Fusion (DFF) module, which dynamically re-weights the two streams at each time step, emphasising the most informative temporal segments. The teacher is also included with a supervised contrastive loss (SupCon) that sharpens class margins. The student shares the R(2+1)D-34 backbone but uses only dark frames and no fusion at test time. The student is first pre-trained with self-supervision on dark clips of both datasets without their labels and then fine-tuned with knowledge distillation from the teacher, transferring the teacher's multi-stream knowledge into a single-stream model. Under single-stream inference, the distilled student attains state-of-the-art accuracy of 96.92% (Top-1) on ARID V1.0, 88.27% on ARID V1.5, and 48.96% on Dark48. Ablation studies further highlight the individual contributions of each component, i.e., DFF in the teacher outperforms single or static fusion, knowledge distillation (KD) transfers these gains to the single-stream student, and two-view spatio-temporal SSL surpasses spatial-only or temporal-only variants without increasing inference cost. The official website of this work is available at: https://github.com/HrishavBakulBarua/ActLumos