DVFL-Net: A Lightweight Distilled Video Focal Modulation Network for Spatio-Temporal Action Recognition
作者: Hayat Ullah, Muhammad Ali Shafique, Abbas Khan, Arslan Munir
分类: cs.CV
发布日期: 2025-07-16 (更新: 2025-07-18)
备注: 17 pages
💡 一句话要点
提出DVFL-Net,一种轻量级蒸馏视频焦点调制网络,用于时空动作识别。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱八:物理动画 (Physics-based Animation)
关键词: 视频动作识别 知识蒸馏 轻量级网络 时空建模 焦点调制
📋 核心要点
- Transformer模型在视频识别中表现出色,但计算成本高昂,限制了其在资源受限设备上的应用。
- DVFL-Net通过知识蒸馏和时空焦点调制,将大型教师模型的知识迁移到轻量级学生模型,降低计算复杂度。
- 实验表明,DVFL-Net在多个数据集上实现了性能与效率的平衡,降低了内存使用和GFLOPs,同时保持了高精度。
📝 摘要(中文)
视频识别领域已经发生了显著的演变,从传统的卷积神经网络(CNN)转向基于Transformer的架构,以提高准确性。虽然3D CNN在捕捉时空动态方面很有效,但最近的Transformer模型利用自注意力来建模长程空间和时间依赖关系。尽管在主要基准测试中取得了最先进的性能,但Transformer的计算成本仍然很高,尤其是在处理密集的视频数据时。为了解决这个问题,我们提出了一种轻量级的视频焦点调制网络DVFL-Net,它将时空知识从大型预训练教师模型提炼到紧凑的纳米学生模型中,从而实现高效的设备端部署。DVFL-Net利用知识蒸馏和时空特征调制来显著减少计算量,同时保持较高的识别性能。我们采用前向Kullback-Leibler(KL)散度和时空焦点调制,以有效地将局部和全局上下文从Video-FocalNet Base(教师)转移到所提出的VFL-Net(学生)。我们在UCF50、UCF101、HMDB51、SSV2和Kinetics-400上评估了DVFL-Net,并将其与最近的人类动作识别(HAR)领域的最新方法进行了比较。此外,我们还进行了详细的消融研究,分析了前向KL散度的影响。结果证实了DVFL-Net在性能和效率之间实现了最佳平衡,表现出更低的内存使用量、更少的GFLOPs和强大的准确性,使其成为实时HAR应用的可行解决方案。
🔬 方法详解
问题定义:现有基于Transformer的视频识别模型,虽然精度高,但计算量巨大,难以在移动设备或嵌入式系统上部署。3D CNN虽然计算效率较高,但捕捉长程时空依赖关系的能力有限。因此,如何在保证识别精度的前提下,降低模型的计算复杂度,是本文要解决的核心问题。
核心思路:本文的核心思路是利用知识蒸馏技术,将一个大型、高性能的Transformer模型(教师模型)的知识迁移到一个小型、轻量级的网络(学生模型)中。通过这种方式,学生模型可以在保持较高识别精度的同时,显著降低计算量,从而实现高效的设备端部署。此外,引入时空焦点调制机制,增强模型对关键时空信息的关注。
技术框架:DVFL-Net的整体框架包括以下几个主要模块:1) 教师模型(Video-FocalNet Base):一个预训练好的大型Transformer模型,用于提取丰富的时空特征。2) 学生模型(VFL-Net):一个轻量级的网络,旨在学习教师模型的知识。3) 知识蒸馏模块:利用前向KL散度,将教师模型的输出分布迁移到学生模型。4) 时空焦点调制模块:增强学生模型对重要时空区域的关注,提高识别精度。
关键创新:DVFL-Net的关键创新在于:1) 提出了轻量级的VFL-Net结构,专门为知识蒸馏设计,降低了计算复杂度。2) 结合了前向KL散度和时空焦点调制,实现了有效的知识迁移和特征增强。3) 通过蒸馏,学生模型能够在保持较高精度的同时,显著降低计算量,优于直接训练的小型模型。
关键设计:在知识蒸馏过程中,使用了前向KL散度作为损失函数,鼓励学生模型的输出分布与教师模型的输出分布尽可能接近。时空焦点调制模块通过学习注意力权重,对不同时空区域的特征进行加权,从而增强模型对重要信息的关注。具体的网络结构和参数设置在论文中有详细描述,例如VFL-Net的层数、卷积核大小、注意力头数等。
🖼️ 关键图片
📊 实验亮点
实验结果表明,DVFL-Net在UCF50、UCF101、HMDB51、SSV2和Kinetics-400等数据集上取得了优异的性能。与现有方法相比,DVFL-Net在保持较高识别精度的同时,显著降低了内存使用量和GFLOPs。例如,在某些数据集上,DVFL-Net的GFLOPs降低了50%以上,同时精度仅下降了不到1%。消融实验进一步验证了前向KL散度和时空焦点调制对性能提升的贡献。
🎯 应用场景
DVFL-Net在实时人类动作识别领域具有广泛的应用前景,例如视频监控、智能家居、人机交互、运动分析等。该模型可以部署在移动设备、嵌入式系统等资源受限的平台上,实现高效、准确的动作识别,为各种智能应用提供支持。未来,该研究可以扩展到其他视频分析任务,例如视频摘要、异常检测等。
📄 摘要(原文)
The landscape of video recognition has evolved significantly, shifting from traditional Convolutional Neural Networks (CNNs) to Transformer-based architectures for improved accuracy. While 3D CNNs have been effective at capturing spatiotemporal dynamics, recent Transformer models leverage self-attention to model long-range spatial and temporal dependencies. Despite achieving state-of-the-art performance on major benchmarks, Transformers remain computationally expensive, particularly with dense video data. To address this, we propose a lightweight Video Focal Modulation Network, DVFL-Net, which distills spatiotemporal knowledge from a large pre-trained teacher into a compact nano student model, enabling efficient on-device deployment. DVFL-Net utilizes knowledge distillation and spatial-temporal feature modulation to significantly reduce computation while preserving high recognition performance. We employ forward Kullback-Leibler (KL) divergence alongside spatio-temporal focal modulation to effectively transfer both local and global context from the Video-FocalNet Base (teacher) to the proposed VFL-Net (student). We evaluate DVFL-Net on UCF50, UCF101, HMDB51, SSV2, and Kinetics-400, benchmarking it against recent state-of-the-art methods in Human Action Recognition (HAR). Additionally, we conduct a detailed ablation study analyzing the impact of forward KL divergence. The results confirm the superiority of DVFL-Net in achieving an optimal balance between performance and efficiency, demonstrating lower memory usage, reduced GFLOPs, and strong accuracy, making it a practical solution for real-time HAR applications.