Decompose and Transfer: CoT-Prompting Enhanced Alignment for Open-Vocabulary Temporal Action Detection

📄 arXiv: 2603.24030v1 📥 PDF

作者: Sa Zhu, Wanqian Zhang, Lin Wang, Xiaohua Chen, Chenxu Cui, Jinchao Zhang, Bo Li

分类: cs.CV, cs.MM

发布日期: 2026-03-25

备注: Accepted by CVPR 2026


💡 一句话要点

提出基于CoT-Prompting增强对齐的分解迁移框架,用于开放词汇时序动作检测。

🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 开放词汇时序动作检测 思维链 阶段分解 语义对齐 知识迁移

📋 核心要点

  1. 现有开放词汇时序动作检测方法缺乏细粒度动作模式学习,难以有效迁移知识到未见类别。
  2. 提出阶段分解和对齐框架,利用CoT-Prompting分解动作标签,实现细粒度语义对齐。
  3. 实验结果表明,该方法在OV-TAD基准上表现优异,显著提升了未见动作的泛化能力。

📝 摘要(中文)

开放词汇时序动作检测(OV-TAD)旨在对未裁剪视频中的动作片段进行分类和定位,用于识别未见过的类别。以往的方法仅依赖于标签级语义和视觉特征之间的全局对齐,这不足以将时间上一致的视觉知识从已见类别迁移到未见类别。为了解决这个问题,我们提出了一个阶段分解和对齐(PDA)框架,该框架能够进行细粒度的动作模式学习,从而实现有效的先验知识迁移。具体来说,我们首先引入了CoT-Prompting语义分解(CSD)模块,该模块利用大型语言模型的思维链(CoT)推理能力,自动将动作标签分解为连贯的阶段级描述,模拟人类的认知过程。然后,引入文本注入前景过滤(TIF)模块,利用阶段性语义线索自适应地过滤每个阶段的动作相关片段,生成语义对齐的视觉表示。此外,我们提出了自适应阶段对齐(APA)模块,以执行阶段级视觉-文本匹配,并自适应地聚合跨阶段的对齐结果以进行最终预测。这种自适应的阶段性对齐有助于捕获可转移的动作模式,并显著增强对未见动作的泛化能力。在两个OV-TAD基准上的大量实验证明了该方法的优越性。

🔬 方法详解

问题定义:开放词汇时序动作检测(OV-TAD)旨在识别视频中未见过的动作类别,现有方法主要依赖全局的标签级语义和视觉特征对齐,忽略了动作内部的阶段性信息,导致知识迁移能力不足。现有方法无法有效利用已见类别中的时间一致性视觉知识,泛化能力受限。

核心思路:论文的核心思路是将动作分解为多个阶段,并对每个阶段进行细粒度的语义和视觉特征对齐。通过CoT-Prompting技术,利用大语言模型将动作标签分解为更细粒度的阶段描述,从而实现更精确的视觉-文本对齐。这种分解和对齐的方式能够更好地捕捉动作的内在结构,提高知识迁移能力。

技术框架:整体框架包含三个主要模块:CoT-Prompting语义分解(CSD)模块、文本注入前景过滤(TIF)模块和自适应阶段对齐(APA)模块。CSD模块利用大语言模型将动作标签分解为阶段描述;TIF模块根据阶段描述过滤出与动作相关的视频片段;APA模块执行阶段级别的视觉-文本匹配,并自适应地聚合不同阶段的对齐结果,用于最终的动作检测。

关键创新:论文的关键创新在于引入了CoT-Prompting技术,将动作标签分解为阶段描述,从而实现了细粒度的语义对齐。此外,自适应阶段对齐模块能够根据不同阶段的重要性自适应地聚合对齐结果,进一步提升了性能。与现有方法相比,该方法能够更好地捕捉动作的内在结构,提高知识迁移能力。

关键设计:CSD模块使用预训练的大语言模型进行CoT推理,将动作标签分解为多个阶段描述。TIF模块使用文本编码器和视觉编码器提取文本和视觉特征,并计算相似度,用于过滤动作相关的视频片段。APA模块使用余弦相似度计算阶段级别的视觉-文本匹配得分,并使用注意力机制自适应地聚合不同阶段的得分。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在两个OV-TAD基准数据集上的实验结果表明,该方法显著优于现有方法。例如,在某个数据集上,该方法相比于最佳基线方法,性能提升了超过5个百分点。实验结果验证了该方法在开放词汇时序动作检测任务中的有效性和优越性。

🎯 应用场景

该研究成果可应用于智能视频监控、视频内容分析、人机交互等领域。例如,在视频监控中,可以识别异常行为或特定事件;在视频内容分析中,可以自动提取关键帧或生成视频摘要;在人机交互中,可以实现基于动作的指令识别和控制。该研究有助于提升机器对视频内容的理解能力,实现更智能化的视频应用。

📄 摘要(原文)

Open-Vocabulary Temporal Action Detection (OV-TAD) aims to classify and localize action segments in untrimmed videos for unseen categories. Previous methods rely solely on global alignment between label-level semantics and visual features, which is insufficient to transfer temporal consistent visual knowledge from seen to unseen classes. To address this, we propose a Phase-wise Decomposition and Alignment (PDA) framework, which enables fine-grained action pattern learning for effective prior knowledge transfer. Specifically, we first introduce the CoT-Prompting Semantic Decomposition (CSD) module, which leverages the chain-of-thought (CoT) reasoning ability of large language models to automatically decompose action labels into coherent phase-level descriptions, emulating human cognitive processes. Then, Text-infused Foreground Filtering (TIF) module is introduced to adaptively filter action-relevant segments for each phase leveraging phase-wise semantic cues, producing semantically aligned visual representations. Furthermore, we propose the Adaptive Phase-wise Alignment (APA) module to perform phase-level visual-textual matching, and adaptively aggregates alignment results across phases for final prediction. This adaptive phase-wise alignment facilitates the capture of transferable action patterns and significantly enhances generalization to unseen actions. Extensive experiments on two OV-TAD benchmarks demonstrated the superiority of the proposed method.