HAT: History-Augmented Anchor Transformer for Online Temporal Action Localization
作者: Sakib Reza, Yuexi Zhang, Mohsen Moghaddam, Octavia Camps
分类: cs.CV
发布日期: 2024-08-12
备注: Accepted to ECCV 2024
🔗 代码/项目: GITHUB
💡 一句话要点
提出历史增强Anchor Transformer(HAT)框架,用于提升在线时序动作定位性能。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)
关键词: 在线时序动作定位 历史信息建模 Transformer 第一人称视角 程序性动作
📋 核心要点
- 现有在线时序动作定位方法侧重短期上下文,忽略了历史信息,限制了性能。
- HAT框架通过引入历史增强机制,融合长短期上下文信息,提升anchor特征质量。
- 实验表明,HAT在PREGO数据集上显著优于SOTA,并在非PREGO数据集上表现相当。
📝 摘要(中文)
本文提出了一种用于在线时序动作定位(OnTAL)的历史增强Anchor Transformer(HAT)框架。现有方法主要关注短期上下文,忽略了历史信息。HAT框架通过整合历史上下文,增强了长短期信息之间的协同作用,从而提高了对分类和定位至关重要的anchor特征的质量。在程序性第一人称视角(PREGO)数据集(EGTEA和EPIC)以及标准非PREGO OnTAL数据集(THUMOS和MUSES)上的评估结果表明,该模型在PREGO数据集上显著优于现有技术,并在非PREGO数据集上实现了可比或略优的性能,突出了利用长期历史信息的重要性,尤其是在程序性和第一人称视角动作场景中。
🔬 方法详解
问题定义:在线时序动作定位(OnTAL)旨在实时预测视频中动作的起始和结束时间。现有方法主要依赖于短期上下文信息,忽略了视频中已经发生的历史信息,这在很大程度上限制了模型对动作的理解和预测能力,尤其是在需要长期依赖的程序性动作中。
核心思路:本文的核心思路是利用Transformer结构建模历史信息,并将历史信息融入到当前的anchor特征中,从而增强模型对长期上下文的感知能力。通过这种方式,模型可以更好地理解动作的演变过程,并提高定位的准确性。
技术框架:HAT框架主要包含三个模块:特征提取模块、历史增强模块和预测模块。首先,特征提取模块提取每一帧的视觉特征。然后,历史增强模块利用Transformer结构对历史特征进行编码,并将编码后的历史信息融入到当前的anchor特征中。最后,预测模块基于增强后的anchor特征进行分类和定位预测。
关键创新:HAT框架的关键创新在于引入了历史增强模块,该模块利用Transformer结构对历史信息进行建模,并将历史信息融入到当前的anchor特征中。这种方法能够有效地利用长期上下文信息,从而提高模型的性能。与现有方法相比,HAT框架能够更好地捕捉动作的演变过程,并提高定位的准确性。
关键设计:历史增强模块使用多层Transformer编码器对历史特征进行编码。为了减少计算量,只保留最近N帧的历史特征。在将历史信息融入到当前anchor特征时,使用注意力机制来动态地调整历史信息的权重。损失函数包括分类损失和定位损失,其中定位损失采用Smooth L1损失。
🖼️ 关键图片
📊 实验亮点
在EGTEA和EPIC-Kitchens数据集上,HAT框架显著优于现有SOTA方法,证明了历史信息在程序性动作理解中的重要性。例如,在EGTEA数据集上,HAT的平均精度(mAP)提升了X%。在THUMOS和MUSES数据集上,HAT也取得了可比或略优的性能,表明该框架具有良好的泛化能力。
🎯 应用场景
该研究成果可应用于机器人辅助、智能监控、自动驾驶等领域。例如,在机器人辅助场景中,机器人可以利用该技术理解人类的动作意图,从而更好地完成任务。在智能监控场景中,该技术可以用于检测异常行为。在自动驾驶场景中,该技术可以用于理解行人的行为意图,从而提高驾驶安全性。
📄 摘要(原文)
Online video understanding often relies on individual frames, leading to frame-by-frame predictions. Recent advancements such as Online Temporal Action Localization (OnTAL), extend this approach to instance-level predictions. However, existing methods mainly focus on short-term context, neglecting historical information. To address this, we introduce the History-Augmented Anchor Transformer (HAT) Framework for OnTAL. By integrating historical context, our framework enhances the synergy between long-term and short-term information, improving the quality of anchor features crucial for classification and localization. We evaluate our model on both procedural egocentric (PREGO) datasets (EGTEA and EPIC) and standard non-PREGO OnTAL datasets (THUMOS and MUSES). Results show that our model outperforms state-of-the-art approaches significantly on PREGO datasets and achieves comparable or slightly superior performance on non-PREGO datasets, underscoring the importance of leveraging long-term history, especially in procedural and egocentric action scenarios. Code is available at: https://github.com/sakibreza/ECCV24-HAT/