An End-to-End Two-Stream Network Based on RGB Flow and Representation Flow for Human Action Recognition
作者: Song-Jiang Lai, Tsun-Hin Cheung, Ka-Chun Fung, Tian-Shan Liu, Kin-Man Lam
分类: cs.CV, cs.AI
发布日期: 2024-11-27
备注: 6 pages, 3 figures, 9 tables
💡 一句话要点
提出基于RGB流和表征流的双流网络,用于端到端的人类行为识别,降低计算成本。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱六:视频提取与匹配 (Video Extraction)
关键词: 双流网络 行为识别 表征流 端到端训练 ConvLSTM 空间注意力 类激活图 自我中心视觉
📋 核心要点
- 传统双流网络在行为识别中表现出色,但光流计算成本高昂,限制了其在资源受限场景的应用。
- 提出使用表征流替代光流,构建端到端可训练的双流网络,旨在降低计算成本并加速预测。
- 实验表明,该模型在多个数据集上达到或超过了原始模型的精度,同时显著降低了预测时间。
📝 摘要(中文)
随着深度学习的快速发展,计算机视觉任务取得了显著的进步,使得双流神经网络成为基于视频的行为识别的热门焦点。传统的使用RGB和光流的模型虽然性能强大,但计算成本很高。为了解决这个问题,我们引入了一种表征流算法来代替以自我为中心的行为识别模型中的光流分支,从而实现端到端训练,同时降低计算成本和预测时间。我们的模型专为以自我为中心的行为识别而设计,使用类激活图(CAM)来提高准确性,并使用ConvLSTM进行具有空间注意力的时空编码。在GTEA61、EGTEA GAZE+和HMDB数据集上进行评估时,我们的模型在GTEA61上与原始模型的准确性相匹配,并在EGTEA GAZE+和HMDB上分别超过了0.65%和0.84%。与原始模型的101.6795秒、25.3799秒和203.9958秒相比,预测运行时间显著降低至0.1881秒、0.1503秒和0.1459秒。还进行了消融研究,以研究不同参数对模型性能的影响。
🔬 方法详解
问题定义:现有基于RGB和光流的双流网络在行为识别任务中表现良好,但光流的计算复杂度高,成为性能瓶颈,尤其是在需要实时或低功耗的应用场景中。因此,如何降低计算成本,同时保持甚至提升识别精度,是本文要解决的核心问题。
核心思路:本文的核心思路是使用“表征流”(Representation Flow)来替代传统的光流。表征流旨在学习视频帧之间高级特征的运动模式,而不是像素级别的运动信息。这种方法可以在保留关键运动信息的同时,显著降低计算复杂度。
技术框架:该模型是一个端到端的双流网络,包含RGB流和表征流两个分支。RGB流处理原始视频帧,提取静态视觉特征。表征流处理连续帧之间的特征差异,捕捉运动信息。两个分支的输出通过ConvLSTM进行时空特征编码,并使用空间注意力机制来关注关键区域。最后,使用类激活图(CAM)来提高模型的可解释性和准确性。
关键创新:最重要的创新点在于使用表征流替代光流。表征流通过学习高级特征的运动模式,避免了像素级别的密集计算,从而显著降低了计算成本。此外,端到端的可训练性使得模型能够更好地优化特征表示,提高识别精度。
关键设计:模型使用了ConvLSTM进行时空特征编码,以捕捉视频中的时间依赖关系。空间注意力机制用于关注图像中的关键区域,提高识别精度。类激活图(CAM)用于可视化模型关注的区域,并辅助模型训练。具体的网络结构和参数设置在论文中进行了详细描述,但摘要中未提供具体数值。
📊 实验亮点
实验结果表明,该模型在GTEA61数据集上达到了与原始模型相当的精度,并在EGTEA GAZE+和HMDB数据集上分别提升了0.65%和0.84%。更重要的是,预测时间显著降低,从原始模型的101.6795秒、25.3799秒和203.9958秒分别降低到0.1881秒、0.1503秒和0.1459秒,实现了数量级的加速。
🎯 应用场景
该研究成果可应用于各种需要实时或低功耗行为识别的场景,例如:智能监控、机器人辅助、可穿戴设备、自动驾驶等。通过降低计算成本,该方法使得行为识别技术能够部署在资源受限的设备上,从而拓展了其应用范围。未来,该方法可以进一步扩展到更复杂的行为识别任务中,例如:多人交互、异常行为检测等。
📄 摘要(原文)
With the rapid advancements in deep learning, computer vision tasks have seen significant improvements, making two-stream neural networks a popular focus for video based action recognition. Traditional models using RGB and optical flow streams achieve strong performance but at a high computational cost. To address this, we introduce a representation flow algorithm to replace the optical flow branch in the egocentric action recognition model, enabling end-to-end training while reducing computational cost and prediction time. Our model, designed for egocentric action recognition, uses class activation maps (CAMs) to improve accuracy and ConvLSTM for spatio temporal encoding with spatial attention. When evaluated on the GTEA61, EGTEA GAZE+, and HMDB datasets, our model matches the accuracy of the original model on GTEA61 and exceeds it by 0.65% and 0.84% on EGTEA GAZE+ and HMDB, respectively. Prediction runtimes are significantly reduced to 0.1881s, 0.1503s, and 0.1459s, compared to the original model's 101.6795s, 25.3799s, and 203.9958s. Ablation studies were also conducted to study the impact of different parameters on model performance. Keywords: two-stream, egocentric, action recognition, CAM, representation flow, CAM, ConvLSTM