DVFL-Net: A Lightweight Distilled Video Focal Modulation Network for Spatio-Temporal Action Recognition

作者: Hayat Ullah, Muhammad Ali Shafique, Abbas Khan, Arslan Munir

分类: cs.CV

发布日期: 2025-07-16 (更新: 2025-07-18)

备注: 17 pages

💡 一句话要点

提出DVFL-Net，一种轻量级蒸馏视频焦点调制网络，用于时空动作识别。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱八：物理动画 (Physics-based Animation)

关键词: 视频动作识别 知识蒸馏 轻量级网络 时空建模 焦点调制

📋 核心要点

Transformer模型在视频识别中表现出色，但计算成本高昂，限制了其在资源受限设备上的应用。
DVFL-Net通过知识蒸馏和时空焦点调制，将大型教师模型的知识迁移到轻量级学生模型，降低计算复杂度。
实验表明，DVFL-Net在多个数据集上实现了性能与效率的平衡，降低了内存使用和GFLOPs，同时保持了高精度。

📝 摘要（中文）

视频识别领域已经发生了显著的演变，从传统的卷积神经网络（CNN）转向基于Transformer的架构，以提高准确性。虽然3D CNN在捕捉时空动态方面很有效，但最近的Transformer模型利用自注意力来建模长程空间和时间依赖关系。尽管在主要基准测试中取得了最先进的性能，但Transformer的计算成本仍然很高，尤其是在处理密集的视频数据时。为了解决这个问题，我们提出了一种轻量级的视频焦点调制网络DVFL-Net，它将时空知识从大型预训练教师模型提炼到紧凑的纳米学生模型中，从而实现高效的设备端部署。DVFL-Net利用知识蒸馏和时空特征调制来显著减少计算量，同时保持较高的识别性能。我们采用前向Kullback-Leibler（KL）散度和时空焦点调制，以有效地将局部和全局上下文从Video-FocalNet Base（教师）转移到所提出的VFL-Net（学生）。我们在UCF50、UCF101、HMDB51、SSV2和Kinetics-400上评估了DVFL-Net，并将其与最近的人类动作识别（HAR）领域的最新方法进行了比较。此外，我们还进行了详细的消融研究，分析了前向KL散度的影响。结果证实了DVFL-Net在性能和效率之间实现了最佳平衡，表现出更低的内存使用量、更少的GFLOPs和强大的准确性，使其成为实时HAR应用的可行解决方案。

🔬 方法详解

问题定义：现有基于Transformer的视频识别模型，虽然精度高，但计算量巨大，难以在移动设备或嵌入式系统上部署。3D CNN虽然计算效率较高，但捕捉长程时空依赖关系的能力有限。因此，如何在保证识别精度的前提下，降低模型的计算复杂度，是本文要解决的核心问题。

核心思路：本文的核心思路是利用知识蒸馏技术，将一个大型、高性能的Transformer模型（教师模型）的知识迁移到一个小型、轻量级的网络（学生模型）中。通过这种方式，学生模型可以在保持较高识别精度的同时，显著降低计算量，从而实现高效的设备端部署。此外，引入时空焦点调制机制，增强模型对关键时空信息的关注。

技术框架：DVFL-Net的整体框架包括以下几个主要模块：1) 教师模型（Video-FocalNet Base）：一个预训练好的大型Transformer模型，用于提取丰富的时空特征。2) 学生模型（VFL-Net）：一个轻量级的网络，旨在学习教师模型的知识。3) 知识蒸馏模块：利用前向KL散度，将教师模型的输出分布迁移到学生模型。4) 时空焦点调制模块：增强学生模型对重要时空区域的关注，提高识别精度。

关键创新：DVFL-Net的关键创新在于：1) 提出了轻量级的VFL-Net结构，专门为知识蒸馏设计，降低了计算复杂度。2) 结合了前向KL散度和时空焦点调制，实现了有效的知识迁移和特征增强。3) 通过蒸馏，学生模型能够在保持较高精度的同时，显著降低计算量，优于直接训练的小型模型。

关键设计：在知识蒸馏过程中，使用了前向KL散度作为损失函数，鼓励学生模型的输出分布与教师模型的输出分布尽可能接近。时空焦点调制模块通过学习注意力权重，对不同时空区域的特征进行加权，从而增强模型对重要信息的关注。具体的网络结构和参数设置在论文中有详细描述，例如VFL-Net的层数、卷积核大小、注意力头数等。

🖼️ 关键图片

📊 实验亮点

实验结果表明，DVFL-Net在UCF50、UCF101、HMDB51、SSV2和Kinetics-400等数据集上取得了优异的性能。与现有方法相比，DVFL-Net在保持较高识别精度的同时，显著降低了内存使用量和GFLOPs。例如，在某些数据集上，DVFL-Net的GFLOPs降低了50%以上，同时精度仅下降了不到1%。消融实验进一步验证了前向KL散度和时空焦点调制对性能提升的贡献。

🎯 应用场景

DVFL-Net在实时人类动作识别领域具有广泛的应用前景，例如视频监控、智能家居、人机交互、运动分析等。该模型可以部署在移动设备、嵌入式系统等资源受限的平台上，实现高效、准确的动作识别，为各种智能应用提供支持。未来，该研究可以扩展到其他视频分析任务，例如视频摘要、异常检测等。

📄 摘要（原文）

The landscape of video recognition has evolved significantly, shifting from traditional Convolutional Neural Networks (CNNs) to Transformer-based architectures for improved accuracy. While 3D CNNs have been effective at capturing spatiotemporal dynamics, recent Transformer models leverage self-attention to model long-range spatial and temporal dependencies. Despite achieving state-of-the-art performance on major benchmarks, Transformers remain computationally expensive, particularly with dense video data. To address this, we propose a lightweight Video Focal Modulation Network, DVFL-Net, which distills spatiotemporal knowledge from a large pre-trained teacher into a compact nano student model, enabling efficient on-device deployment. DVFL-Net utilizes knowledge distillation and spatial-temporal feature modulation to significantly reduce computation while preserving high recognition performance. We employ forward Kullback-Leibler (KL) divergence alongside spatio-temporal focal modulation to effectively transfer both local and global context from the Video-FocalNet Base (teacher) to the proposed VFL-Net (student). We evaluate DVFL-Net on UCF50, UCF101, HMDB51, SSV2, and Kinetics-400, benchmarking it against recent state-of-the-art methods in Human Action Recognition (HAR). Additionally, we conduct a detailed ablation study analyzing the impact of forward KL divergence. The results confirm the superiority of DVFL-Net in achieving an optimal balance between performance and efficiency, demonstrating lower memory usage, reduced GFLOPs, and strong accuracy, making it a practical solution for real-time HAR applications.

DVFL-Net: A Lightweight Distilled Video Focal Modulation Network for Spatio-Temporal Action Recognition

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理