Zero-Shot Temporal Action Localization Through Textual Guidance

📄 arXiv: 2605.22201v1 📥 PDF

作者: Benedetta Liberatori, Alessandro Conti, Lorenzo Vaquero, Paolo Rota, Yiming Wang, Elisa Ricci

分类: cs.CV

发布日期: 2026-05-21

备注: Accepted to FG 2026


💡 一句话要点

提出TEGU,利用文本引导实现零样本时序动作定位,无需训练数据。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 时序动作定位 文本引导 视觉语言模型 多模态融合

📋 核心要点

  1. 现有零样本时序动作定位方法依赖大规模标注数据训练,泛化能力受限,且难以区分细粒度动作。
  2. TEGU利用大型语言模型和字幕中的结构化文本,提供丰富的语言上下文,弥补训练数据缺失带来的信息不足。
  3. 实验表明,TEGU在THUMOS14和ActivityNet-v1.3数据集上优于现有无训练的零样本时序动作定位方法。

📝 摘要(中文)

零样本时序动作定位(ZS-TAL)旨在对未剪辑视频中的动作进行分类和定位,其中动作类别在训练时是未知的。现有工作利用视觉和语言模型(VLMs)的强大零样本迁移能力。然而,这些模型在细粒度动作分类方面面临挑战,难以直接区分动作的存在与否。当前ZS-TAL方法主要通过在大型视频数据集上训练模型来解决这些问题,这需要标注数据且泛化性能有限。最近,出现了一种不使用标注数据的方法。本文沿着这个方向,提出了一种新方法“用于视频中更精细动作定位的文本引导”(TEGU),它通过利用来自大型语言模型的丰富文本信息和从字幕中提取的结构化文本来弥补训练数据监督的不足。这种额外的语言上下文可以通过提供关于视频中细粒度动作差异的更丰富的线索来提高细粒度区分能力。通过在THUMOS14和ActivityNet-v1.3数据集上进行的实验验证了所提出方法的有效性。结果表明,通过利用丰富的文本信息来改进动作定位,TEGU优于不涉及训练的现有最先进的ZS-TAL方法。

🔬 方法详解

问题定义:零样本时序动作定位(ZS-TAL)旨在识别和定位视频中出现的动作,而模型在训练阶段没有见过这些动作类别。现有方法,尤其是依赖视觉语言模型(VLM)的方法,在细粒度动作分类上表现不佳,难以区分动作的存在与否。此外,许多方法依赖于大规模标注视频数据进行训练,成本高昂且泛化能力有限。

核心思路:TEGU的核心思路是利用文本信息来弥补视觉信息的不足,尤其是在细粒度动作识别方面。通过引入从大型语言模型和视频字幕中提取的文本信息,TEGU能够提供更丰富的上下文,从而提高模型区分相似动作的能力。这种方法避免了对标注数据的依赖,实现了真正的零样本学习。

技术框架:TEGU的整体框架包含以下几个主要阶段:1) 视频特征提取:使用预训练的视觉模型(具体模型未知)提取视频帧的视觉特征。2) 文本信息提取:利用大型语言模型(具体模型未知)生成与视频内容相关的文本描述,并从视频字幕中提取结构化文本信息。3) 多模态融合:将视觉特征和文本信息进行融合,得到视频的综合表示。4) 动作定位与分类:使用融合后的表示进行动作的定位和分类,利用文本信息指导模型区分不同的动作类别。

关键创新:TEGU的关键创新在于其完全依赖文本引导,无需任何训练数据。它通过将视觉信息与丰富的文本信息相结合,显著提高了零样本时序动作定位的性能。与现有方法相比,TEGU避免了对大规模标注数据的依赖,具有更好的泛化能力和可扩展性。

关键设计:论文中没有明确说明具体的参数设置、损失函数或网络结构等技术细节。但是,可以推断,TEGU可能使用了对比学习或类似的损失函数,以鼓励模型学习视觉特征和文本信息之间的对应关系。此外,多模态融合的具体方法(例如,注意力机制或简单的连接)以及文本信息的具体提取方式(例如,使用特定的提示工程)也是关键的设计选择,但论文中没有详细描述。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

TEGU在THUMOS14和ActivityNet-v1.3数据集上进行了实验验证,结果表明,TEGU优于现有不涉及训练的零样本时序动作定位方法。具体的性能提升幅度未知,但论文强调TEGU通过利用丰富的文本信息来改进动作定位,从而实现了更好的性能。

🎯 应用场景

TEGU在视频监控、自动驾驶、智能家居等领域具有广泛的应用前景。例如,在视频监控中,TEGU可以自动识别和定位异常行为,无需人工标注数据。在自动驾驶中,TEGU可以帮助车辆理解周围环境,识别行人的动作意图。在智能家居中,TEGU可以识别用户的日常活动,提供个性化的服务。

📄 摘要(原文)

Zero-shot temporal action localization (ZS-TAL) consists of classifying and localizing actions in untrimmed videos, where action classes are unseen at training time. Existing work uses Vision and Language Models (VLMs), taking advantage of their strong zero-shot transfer capabilities. Yet, these models face evident challenges with fine-grained action classification, making it difficult to directly use them to distinguish between the presence and absence of an action. Most current methods for ZS-TAL address these challenges by training models on large-scale video datasets, which require annotated data and often result in limited generalization performance. Recently, approaches discarding the use of labeled data have emerged as an alternative. Following this direction, we propose a novel approach, ``Textual Guidance for finer localization of actions in videos'' (TEGU), that compensates for the lack of supervision from training data by exploiting rich textual information derived from large language models and structured text extracted from captions. This additional linguistic context can improve fine-grained discrimination by providing richer cues about fine-grained action differences within videos. We validate the effectiveness of the proposed method by conducting experiments on the THUMOS14 and the ActivityNet-v1.3 datasets. Our results show that, by exploiting rich textual information for improved action localization, TEGU outperforms state-of-the-art ZS-TAL approaches that do not involve training