CAKE: Real-time Action Detection via Motion Distillation and Background-aware Contrastive Learning
作者: Hieu Hoang, Dung Trung Tran, Hong Nguyen, Nam-Phong Nguyen
分类: cs.CV
发布日期: 2026-03-25
💡 一句话要点
CAKE:基于运动知识蒸馏和背景感知对比学习的实时行为检测
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 在线行为检测 知识蒸馏 光流估计 对比学习 运动建模 实时系统 动态运动适配器
📋 核心要点
- 在线行为检测面临计算量大和难以区分前景运动与背景干扰的问题,直接使用光流虽然有效,但计算成本过高。
- CAKE框架通过运动知识蒸馏,将光流中的运动信息迁移到RGB模型,并利用动态运动适配器(DMA)近似光流,降低计算复杂度。
- 实验表明,CAKE在多个数据集上取得了优异的mAP,并在单CPU上实现了72FPS以上的运行速度,适用于资源受限的系统。
📝 摘要(中文)
在线行为检测(OAD)系统面临两个主要挑战:高计算成本和对区分性时间动态建模不足,难以对抗背景运动。添加光流可以提供强大的运动线索,但会产生显著的计算开销。我们提出了CAKE,一个基于光流知识蒸馏的OAD框架,将运动知识转移到RGB模型中。我们提出了动态运动适配器(DMA)来抑制静态背景噪声并强调像素变化,从而有效地近似光流而无需显式计算。该框架还集成了浮动对比学习策略,以区分信息丰富的运动动态与时间背景。在TVSeries、THUMOS'14、Kinetics-400数据集上进行的大量实验表明了我们模型的有效性。与使用相同骨干网络的SOTA方法相比,CAKE实现了出色的mAP。我们的模型在单个CPU上以超过72 FPS的速度运行,使其非常适合资源受限的系统。
🔬 方法详解
问题定义:在线行为检测(OAD)需要在视频流中实时识别和定位动作。现有方法要么计算复杂度高,难以满足实时性要求,要么难以有效区分前景动作和背景干扰,导致检测精度下降。直接使用光流虽然可以提供丰富的运动信息,但计算开销巨大,不适用于资源受限的场景。
核心思路:CAKE的核心思路是通过知识蒸馏,将光流模型学习到的运动信息迁移到RGB模型中,从而在不增加过多计算负担的前提下,提升RGB模型的行为检测性能。同时,设计动态运动适配器(DMA)来近似光流,减少显式光流计算带来的开销。此外,采用浮动对比学习策略,进一步增强模型对前景运动和背景干扰的区分能力。
技术框架:CAKE框架主要包含三个模块:1) 动态运动适配器(DMA):用于从RGB输入中提取运动信息,近似光流;2) 运动知识蒸馏:将光流模型的运动知识迁移到RGB模型;3) 浮动对比学习:用于区分前景运动和背景干扰。整体流程是,首先使用DMA从RGB帧中提取运动特征,然后利用蒸馏损失将光流模型的运动知识迁移到RGB模型中,最后通过对比学习损失,增强模型对前景运动和背景干扰的区分能力。
关键创新:CAKE的关键创新在于:1) 提出了动态运动适配器(DMA),能够有效地近似光流,而无需显式计算光流,从而显著降低了计算复杂度;2) 提出了浮动对比学习策略,能够有效地区分前景运动和背景干扰,提升了行为检测的精度;3) 将运动知识蒸馏应用于在线行为检测,实现了在资源受限的条件下,提升模型性能的目的。
关键设计:动态运动适配器(DMA)通过卷积神经网络学习像素变化,从而近似光流。浮动对比学习策略使用InfoNCE损失,将同一动作实例的特征拉近,不同动作实例的特征推远。蒸馏损失采用L2损失,使RGB模型的输出尽可能接近光流模型的输出。具体参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
CAKE在TVSeries、THUMOS'14和Kinetics-400数据集上进行了评估,实验结果表明,CAKE在保持较高检测精度的同时,显著降低了计算复杂度。例如,在TVSeries数据集上,CAKE取得了state-of-the-art的mAP,并在单CPU上实现了72FPS以上的运行速度。与使用相同骨干网络的其他方法相比,CAKE在精度和速度上都具有明显优势。
🎯 应用场景
CAKE框架可应用于智能监控、机器人导航、人机交互等领域。例如,在智能监控中,可以实时检测异常行为,及时发出警报;在机器人导航中,可以帮助机器人理解周围环境的动态变化,从而做出更合理的决策;在人机交互中,可以识别用户的动作意图,提供更自然、更智能的交互体验。该研究有助于推动实时行为检测技术的发展,并为相关应用提供更高效、更可靠的解决方案。
📄 摘要(原文)
Online Action Detection (OAD) systems face two primary challenges: high computational cost and insufficient modeling of discriminative temporal dynamics against background motion. Adding optical flow could provides strong motion cues but it incurs significant computational overhead. We propose CAKE, a OAD Flow-based distillation framework to transfer motion knowledge into RGB models. We propose Dynamic Motion Adapter (DMA) to suppress static background noise and emphasize pixel changes, effectively approximating optical flow without explicit computation. The framework also integrates a Floating Contrastive Learning strategy to distinguish informative motion dynamics from temporal background. Various experiments conducted on the TVSeries, THUMOS'14, Kinetics-400 datasets show effectiveness of our model. CAKE achieves a standout mAP compared with SOTA while using the same backbone. Our model operates at over 72 FPS on a single CPU, making it highly suitable for resource-constrained systems.