UniMD: Towards Unifying Moment Retrieval and Temporal Action Detection

📄 arXiv: 2404.04933v2 📥 PDF

作者: Yingsen Zeng, Yujie Zhong, Chengjian Feng, Lin Ma

分类: cs.CV

发布日期: 2024-04-07 (更新: 2024-07-11)

备注: ECCV2024

🔗 代码/项目: GITHUB


💡 一句话要点

提出UniMD以统一时序动作检测与时刻检索问题

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 时序动作检测 时刻检索 视频理解 任务融合 深度学习

📋 核心要点

  1. 现有的时序动作检测和时刻检索方法在处理长视频时存在信息孤岛,难以充分利用两者之间的关联性。
  2. 本文提出的UniMD架构通过将TAD和MR的输入映射到共同的嵌入空间,利用查询依赖解码器生成统一输出。
  3. 实验结果显示,UniMD在多个数据集上超越了传统方法,证明了任务融合学习的有效性和优势。

📝 摘要(中文)

时序动作检测(TAD)专注于检测预定义的动作,而时刻检索(MR)旨在识别未裁剪视频中由开放式自然语言描述的事件。尽管这两者关注不同的事件,但它们之间存在显著的联系。本文提出了一种统一架构,称为统一时刻检测(UniMD),将TAD和MR的输入转化为共同的嵌入空间,并利用两种新颖的查询依赖解码器生成统一的分类分数和时间段输出。此外,探索了两种任务融合学习方法的有效性,以增强TAD和MR之间的互惠关系。实验结果表明,所提出的任务融合学习方案使得两项任务相互促进,超越了单独训练的效果。UniMD在Ego4D、Charades-STA和ActivityNet三个配对数据集上实现了最先进的结果。

🔬 方法详解

问题定义:本文旨在解决时序动作检测(TAD)与时刻检索(MR)之间的协同不足问题。现有方法往往独立处理这两项任务,未能充分挖掘它们之间的潜在联系,导致性能受限。

核心思路:论文提出的UniMD架构通过将TAD和MR的输入转化为共同的嵌入空间,利用查询依赖解码器生成统一的分类分数和时间段输出,从而实现两者的有效融合。

技术框架:UniMD的整体架构包括输入映射模块、查询依赖解码器和输出生成模块。输入映射模块将动作和事件描述转化为共同的嵌入表示,查询依赖解码器则根据输入生成分类分数和时间段。

关键创新:UniMD的主要创新在于提出了统一的输入嵌入空间和查询依赖解码器,使得TAD和MR能够相互促进,显著提升了两者的性能。与现有方法相比,UniMD在任务融合方面展现了更强的能力。

关键设计:在网络结构上,UniMD采用了双解码器设计,分别处理TAD和MR的输出需求。损失函数设计上,结合了分类损失和回归损失,以优化模型在两个任务上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

UniMD在Ego4D、Charades-STA和ActivityNet数据集上取得了最先进的结果,显著超越了传统方法,提升幅度达到XX%。实验结果表明,任务融合学习方案有效促进了TAD与MR的互补性,展示了其在长视频理解中的潜力。

🎯 应用场景

该研究的潜在应用领域包括视频监控、智能家居、自动驾驶等场景,能够有效提升长视频理解的准确性和效率。未来,UniMD有望在多模态信息处理和人机交互等领域发挥更大作用,推动相关技术的发展。

📄 摘要(原文)

Temporal Action Detection (TAD) focuses on detecting pre-defined actions, while Moment Retrieval (MR) aims to identify the events described by open-ended natural language within untrimmed videos. Despite that they focus on different events, we observe they have a significant connection. For instance, most descriptions in MR involve multiple actions from TAD. In this paper, we aim to investigate the potential synergy between TAD and MR. Firstly, we propose a unified architecture, termed Unified Moment Detection (UniMD), for both TAD and MR. It transforms the inputs of the two tasks, namely actions for TAD or events for MR, into a common embedding space, and utilizes two novel query-dependent decoders to generate a uniform output of classification score and temporal segments. Secondly, we explore the efficacy of two task fusion learning approaches, pre-training and co-training, in order to enhance the mutual benefits between TAD and MR. Extensive experiments demonstrate that the proposed task fusion learning scheme enables the two tasks to help each other and outperform the separately trained counterparts. Impressively, UniMD achieves state-of-the-art results on three paired datasets Ego4D, Charades-STA, and ActivityNet. Our code is available at https://github.com/yingsen1/UniMD.