Masked Diffusion Vision-Language Models for Temporal Action Localization
作者: Fengshun Wang, Zhengbo Zhang, Zhigang Tu
分类: cs.CV
发布日期: 2026-05-28
💡 一句话要点
提出MDVLM-TAL,利用掩码扩散模型解决时序动作定位中时间边界难以修正的问题。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 时序动作定位 掩码扩散模型 视觉语言模型 时间边界定位 双向注意力 迭代去噪 Planned Training Objective
📋 核心要点
- 现有TAL方法采用自回归解码器,无法利用后续语义信息修正早期时间戳预测,限制了性能。
- MDVLM-TAL利用掩码扩散模型,通过迭代去噪和双向注意力,联合优化时间边界和语义内容。
- 实验表明,MDVLM-TAL在多个数据集上显著提升了时间推理和边界定位的性能,尤其是在高IoU要求下。
📝 摘要(中文)
本文针对时序动作定位(TAL)任务,提出了一种基于掩码扩散视觉-语言模型(MDVLM)的方法。现有的视觉-语言模型通常采用自回归解码器,从左到右生成token,导致后续的语义信息无法修正之前的timestamp预测。MDVLM-TAL通过迭代去噪和双向注意力机制,使得语义token和边界token在整个过程中保持可编辑性,从而联合优化时间边界和语义内容。为了解决直接应用MDVLM带来的时间token可靠性问题和token级别交叉熵无法反映时间IoU的问题,本文引入了Planned Training Objective,使用边界感知的掩码和步长加权重建来模拟时间token的后期恢复,并结合Step-Level IoU Reward,在去噪过程中提供重叠感知的监督。实验表明,MDVLM-TAL在ActivityNet-RTL、ActivityNet-1.3和THUMOS-14数据集上,相较于自回归视觉-语言基线,显著提升了时间推理和边界定位的性能,尤其是在更严格的时间IoU标准下。
🔬 方法详解
问题定义:时序动作定位(TAL)旨在识别未分割视频中的目标事件,并精确定位其开始和结束时间。现有基于视觉-语言模型的TAL方法通常采用自回归解码器,从左到右生成token。这种方式的缺点在于,后续的语义信息无法用来修正之前生成的时间戳预测,导致时间边界定位不准确。
核心思路:本文的核心思路是将掩码扩散模型引入到视觉-语言TAL任务中。通过掩码扩散模型,语义token和边界token在迭代去噪过程中保持可编辑性,允许模型在后续步骤中根据全局信息修正时间边界的预测。这种双向注意力机制能够更好地利用上下文信息,从而提高时间边界定位的准确性。
技术框架:MDVLM-TAL的整体框架包括以下几个主要模块:1) 视觉编码器:用于提取视频帧的视觉特征。2) 文本编码器:用于提取文本描述的语义特征。3) 掩码扩散模型:将视觉和文本特征融合,并通过迭代去噪过程生成时间戳预测。4) 训练目标:包括序列级别的交叉熵损失、Planned Training Objective和Step-Level IoU Reward。
关键创新:本文最重要的技术创新在于将掩码扩散模型应用于TAL任务,并设计了针对TAL任务的训练策略。与自回归模型不同,掩码扩散模型允许双向信息流动,从而更好地利用上下文信息。此外,Planned Training Objective和Step-Level IoU Reward能够更好地指导模型学习时间边界的定位。
关键设计:Planned Training Objective包括边界感知的掩码和步长加权重建。边界感知的掩码策略在训练过程中更有可能掩盖时间边界附近的token,从而迫使模型学习更准确的时间边界。步长加权重建则根据去噪步骤的重要性对重建损失进行加权。Step-Level IoU Reward在去噪的每个步骤中计算预测的时间边界与真实时间边界的IoU,并将其作为奖励信号,从而直接优化时间IoU。
🖼️ 关键图片
📊 实验亮点
实验结果表明,MDVLM-TAL在ActivityNet-RTL、ActivityNet-1.3和THUMOS-14数据集上均取得了显著的性能提升。例如,在ActivityNet-RTL数据集上,MDVLM-TAL在IoU=0.5时,相较于基线模型,性能提升了5%以上。尤其是在更严格的IoU标准下(如IoU=0.7),MDVLM-TAL的提升更为明显,表明其在时间边界定位方面具有更强的优势。
🎯 应用场景
该研究成果可应用于视频监控、智能安防、视频内容分析、人机交互等领域。例如,在视频监控中,可以自动识别和定位异常行为;在视频内容分析中,可以自动提取视频中的关键事件;在人机交互中,可以根据用户的语言指令定位视频中的目标动作。
📄 摘要(原文)
Temporal action localization (TAL) requires recognizing the target event and localizing its start and end times precisely in untrimmed videos. Recent vision-language formulations improve semantic reasoning and support language-conditioned outputs, but their autoregressive decoders still generate tokens from left to right, preventing later semantic evidence from revising earlier timestamp predictions. We adapt masked diffusion vision-language models (MDVLMs) to TAL so that semantic tokens and boundary tokens remain editable throughout iterative denoising with bidirectional attention, allowing temporal boundaries and semantic content to be refined jointly. Direct adaptation, however, creates two TAL-specific mismatches: standard masked diffusion training corrupts all positions uniformly at random, but the time tokens are more reliable when enough semantic context is available; and token-level cross-entropy does not reflect temporal IoU. To address these mismatches, we introduce a Planned Training Objective that uses boundary-aware masking and step-weighted reconstruction to rehearse the late recovery of time tokens, together with a Step-Level IoU Reward that provides overlap-aware supervision during denoising. A standard sequence-level cross-entropy term provides the base reconstruction signal. Experiments on ActivityNet-RTL, ActivityNet-1.3, and THUMOS-14 show that MDVLM-TAL improves both temporal reasoning and boundary localization over autoregressive vision-language baselines, with especially strong gains under stricter temporal IoU criteria.