Denoise and Align: Diffusion-Driven Foreground Knowledge Prompting for Open-Vocabulary Temporal Action Detection
作者: Sa Zhu, Wanqian Zhang, Lin Wang, Jinchao Zhang, Cong Wang, Bo Li
分类: cs.CV
发布日期: 2026-04-20
备注: Accepted by SIGIR 2026
💡 一句话要点
提出DFAlign框架,利用扩散模型生成前景知识,提升开放词汇时序动作检测性能。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 开放词汇时序动作检测 扩散模型 前景知识 跨模态对齐 视频理解
📋 核心要点
- 现有开放词汇时序动作检测方法难以有效对齐抽象动作标签和复杂视频内容,导致语义噪声和跨模态对齐偏差。
- DFAlign框架利用扩散模型进行去噪,生成前景知识作为中间语义锚点,弥合视频和文本表示之间的语义鸿沟。
- 实验结果表明,DFAlign在OV-TAD基准测试中取得了SOTA性能,验证了其有效性。
📝 摘要(中文)
开放词汇时序动作检测(OV-TAD)旨在对未修剪视频中未见类别的动作片段进行定位和分类。准确检测的关键在于动作语义和视频表示之间的有效对齐。然而,现有方法难以缓解简洁抽象的动作标签与丰富复杂的视频内容之间的语义不平衡,不可避免地引入语义噪声并误导跨模态对齐。为了解决这一挑战,我们提出了DFAlign,这是第一个利用基于扩散的去噪来生成前景知识,以指导动作-视频对齐的框架。按照“条件化、去噪和对齐”的方式,我们首先引入语义统一条件化(SUC)模块,将动作共享和动作特定的语义统一为扩散去噪的条件。然后,背景抑制去噪(BSD)模块通过去噪过程逐步去除视频中的背景冗余,从而生成前景知识。这种前景知识作为视频和文本表示之间有效的中间语义锚点,弥合了语义差距,增强了动作相关片段的可区分性。此外,我们引入了前景提示对齐(FPA)模块,将提取的前景知识作为提示token注入到文本表示中,引导模型关注动作相关片段,从而实现精确的跨模态对齐。大量实验表明,我们的方法在两个OV-TAD基准测试中取得了最先进的性能。
🔬 方法详解
问题定义:开放词汇时序动作检测(OV-TAD)旨在检测和分类视频中未见过的动作类别。现有方法的痛点在于,动作标签通常是简洁抽象的,而视频内容则包含大量的背景信息和噪声,这导致了语义不平衡,使得模型难以准确地将视频片段与对应的动作类别对齐。
核心思路:论文的核心思路是利用扩散模型生成更干净、更聚焦于前景动作的知识表示,作为视频和文本之间的桥梁。通过逐步去除视频中的背景噪声,突出动作相关的特征,从而缓解语义鸿沟,提高跨模态对齐的准确性。这样设计的目的是为了让模型能够更好地关注视频中与动作相关的部分,减少背景信息的干扰。
技术框架:DFAlign框架主要包含三个模块:语义统一条件化(SUC)模块、背景抑制去噪(BSD)模块和前景提示对齐(FPA)模块。SUC模块将动作共享和动作特定的语义信息统一起来,作为扩散模型的条件。BSD模块利用扩散模型逐步去除视频中的背景冗余,生成前景知识。FPA模块将提取的前景知识作为提示token注入到文本表示中,引导模型关注动作相关片段。整体流程是先对视频进行条件化,然后进行去噪,最后进行对齐。
关键创新:最重要的技术创新点在于利用扩散模型生成前景知识,作为连接视频和文本表示的中间层。与现有方法直接进行跨模态对齐不同,DFAlign通过引入前景知识,显式地提取和利用了视频中与动作相关的特征,从而提高了对齐的准确性。这种方法能够有效地缓解语义不平衡问题,并增强了模型对动作相关片段的区分能力。
关键设计:SUC模块的设计考虑了动作共享和动作特定的语义信息,通过统一的条件化方式,为扩散模型提供更全面的指导。BSD模块采用了扩散模型的去噪过程,逐步去除背景冗余,突出前景动作。FPA模块将前景知识作为提示token注入到文本表示中,引导模型关注动作相关片段,从而实现更精确的跨模态对齐。具体的参数设置和网络结构细节在论文中有详细描述。
🖼️ 关键图片
📊 实验亮点
DFAlign在两个OV-TAD基准测试中取得了SOTA性能,证明了其有效性。具体性能数据和对比基线在论文中有详细展示。通过引入扩散模型生成前景知识,显著提升了模型对动作相关片段的区分能力和跨模态对齐的准确性。
🎯 应用场景
该研究成果可应用于智能视频监控、视频内容分析、人机交互等领域。例如,在智能监控中,可以利用该方法自动检测异常行为;在视频内容分析中,可以用于识别和理解视频中的动作事件;在人机交互中,可以帮助机器人理解人类的动作意图。
📄 摘要(原文)
Open-Vocabulary Temporal Action Detection (OV-TAD) aims to localize and classify action segments of unseen categories in untrimmed videos, where effective alignment between action semantics and video representations is critical for accurate detection. However, existing methods struggle to mitigate the semantic imbalance between concise, abstract action labels and rich, complex video contents, inevitably introducing semantic noise and misleading cross-modal alignment. To address this challenge, we propose DFAlign, the first framework that leverages diffusion-based denoising to generate foreground knowledge for the guidance of action-video alignment. Following the 'conditioning, denoising and aligning' manner, we first introduce the Semantic-Unify Conditioning (SUC) module, which unifies action-shared and action-specific semantics as conditions for diffusion denoising. Then, the Background-Suppress Denoising (BSD) module generates foreground knowledge by progressively removing background redundancy from videos through denoising process. This foreground knowledge serves as effective intermediate semantic anchor between video and text representations, mitigating the semantic gap and enhancing the discriminability of action-relevant segments. Furthermore, we introduce the Foreground-Prompt Alignment (FPA) module to inject extracted foreground knowledge as prompt tokens into text representations, guiding model's attention towards action-relevant segments and enabling precise cross-modal alignment. Extensive experiments demonstrate that our method achieves state-of-the-art performance on two OV-TAD benchmarks. The code repository is provided as follows: https://anonymous.4open.science/r/Code-2114/.