Open-Vocabulary Temporal Action Localization using Multimodal Guidance

📄 arXiv: 2406.15556v1 📥 PDF

作者: Akshita Gupta, Aditya Arora, Sanath Narayan, Salman Khan, Fahad Shahbaz Khan, Graham W. Taylor

分类: cs.CV

发布日期: 2024-06-21


💡 一句话要点

提出OVFormer,利用多模态指导实现开放词汇时序动作定位

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放词汇学习 时序动作定位 多模态融合 大型语言模型 交叉注意力

📋 核心要点

  1. 开放词汇时序动作定位的关键挑战在于模型需要识别训练时未见过的动作类别,理解上下文语义至关重要。
  2. OVFormer通过任务提示驱动的大型语言模型生成类别描述,并利用交叉注意力对齐视频特征和类别表示,实现多模态指导。
  3. OVFormer采用两阶段训练策略,先在大规模数据集上训练,再在下游数据上微调,显著提升了模型对新类别的泛化能力。

📝 摘要(中文)

本文提出了一种名为OVFormer的开放词汇时序动作定位(OVTAL)框架,旨在解决模型在无需为所有类别显式标注训练数据的情况下,识别视频中任意动作类别的难题。与训练和测试类别预先确定的标准时序动作定位不同,OVTAL需要理解揭示新类别语义的上下文线索。OVFormer扩展了ActionFormer,包含三个关键贡献:首先,利用任务特定的提示输入大型语言模型,获得丰富的类别描述;其次,引入交叉注意力机制,学习类别表示和帧级别视频特征之间的对齐,从而促进多模态引导特征的学习;第三,提出两阶段训练策略,即使用更大的词汇数据集进行训练,然后微调到下游数据,以泛化到新类别。在THUMOS14和ActivityNet-1.3基准上的综合评估表明了该方法的有效性。代码和预训练模型将公开发布。

🔬 方法详解

问题定义:开放词汇时序动作定位(OVTAL)旨在识别视频中任意动作类别,无需为所有类别提供显式训练数据。现有方法在处理训练集中未出现的动作类别时,由于缺乏对新类别语义的理解,性能显著下降。因此,如何有效利用上下文信息,实现对新类别动作的准确识别是OVTAL的关键挑战。

核心思路:OVFormer的核心思路是利用大型语言模型(LLM)的强大语义理解能力,为每个动作类别生成丰富的描述,并将其与视频特征进行有效融合。通过这种多模态指导,模型能够更好地理解新类别动作的语义,从而提高识别准确率。同时,采用两阶段训练策略,先在大规模数据集上进行预训练,再在目标数据集上进行微调,进一步提升模型的泛化能力。

技术框架:OVFormer的整体框架基于ActionFormer,并在此基础上进行了扩展。主要包含以下几个模块:1) 提示工程模块:利用任务特定的提示,输入大型语言模型,生成动作类别的文本描述。2) 多模态融合模块:通过交叉注意力机制,学习类别表示和帧级别视频特征之间的对齐关系,生成多模态引导特征。3) 时序动作定位模块:利用ActionFormer进行时序动作的检测和定位。4) 两阶段训练模块:首先使用大规模数据集进行预训练,然后使用目标数据集进行微调。

关键创新:OVFormer的关键创新在于:1) 引入了任务特定的提示工程,有效利用大型语言模型生成动作类别的丰富描述。2) 提出了交叉注意力机制,实现了类别表示和视频特征的有效融合,从而实现了多模态指导。3) 采用了两阶段训练策略,显著提升了模型对新类别的泛化能力。与现有方法相比,OVFormer能够更好地利用上下文信息,从而提高对新类别动作的识别准确率。

关键设计:在提示工程方面,设计了任务特定的提示,以引导大型语言模型生成更准确、更相关的类别描述。在交叉注意力机制方面,采用了多头注意力机制,以学习更丰富的对齐关系。在两阶段训练方面,选择了合适的大规模数据集进行预训练,并采用了合适的微调策略,以避免过拟合。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

OVFormer在THUMOS14和ActivityNet-1.3基准测试中取得了显著的性能提升。具体而言,在THUMOS14上,OVFormer的性能优于现有方法,尤其是在识别新类别动作时,性能提升更为明显。实验结果表明,OVFormer能够有效利用多模态信息,提高对新类别动作的识别准确率。

🎯 应用场景

该研究成果可应用于智能视频监控、视频内容分析、人机交互等领域。例如,在视频监控中,可以识别异常行为或特定事件,无需预先定义所有可能的行为类别。在视频内容分析中,可以自动提取视频中的关键动作,为视频检索和推荐提供支持。在人机交互中,可以理解用户的意图,并根据用户的动作提供相应的反馈。

📄 摘要(原文)

Open-Vocabulary Temporal Action Localization (OVTAL) enables a model to recognize any desired action category in videos without the need to explicitly curate training data for all categories. However, this flexibility poses significant challenges, as the model must recognize not only the action categories seen during training but also novel categories specified at inference. Unlike standard temporal action localization, where training and test categories are predetermined, OVTAL requires understanding contextual cues that reveal the semantics of novel categories. To address these challenges, we introduce OVFormer, a novel open-vocabulary framework extending ActionFormer with three key contributions. First, we employ task-specific prompts as input to a large language model to obtain rich class-specific descriptions for action categories. Second, we introduce a cross-attention mechanism to learn the alignment between class representations and frame-level video features, facilitating the multimodal guided features. Third, we propose a two-stage training strategy which includes training with a larger vocabulary dataset and finetuning to downstream data to generalize to novel categories. OVFormer extends existing TAL methods to open-vocabulary settings. Comprehensive evaluations on the THUMOS14 and ActivityNet-1.3 benchmarks demonstrate the effectiveness of our method. Code and pretrained models will be publicly released.