Multi-task Learning with Extended Temporal Shift Module for Temporal Action Localization

📄 arXiv: 2512.11189v1 📥 PDF

作者: Anh-Kiet Duong, Petra Gomez-Krämer

分类: cs.CV

发布日期: 2025-12-12

备注: BinEgo360@ICCV25


💡 一句话要点

提出扩展时序位移模块的多任务学习框架,用于时序动作定位。

🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction)

关键词: 时序动作定位 多任务学习 时序位移模块 视频理解 多模态融合

📋 核心要点

  1. 现有方法在复杂多视角视频中时序动作定位精度不足,难以有效利用上下文信息。
  2. 扩展TSM,引入背景类,并结合多任务学习框架,同时优化场景分类和动作定位。
  3. 在BinEgo-360挑战赛中,该方法在初始和扩展轮次均排名第一,验证了其有效性。

📝 摘要(中文)

本文提出了针对ICCV 2025 BinEgo-360挑战赛的时序动作定位(TAL)解决方案,该挑战赛关注多视角和多模态视频环境下的TAL。挑战赛提供包含全景、第三人称和以自我为中心的记录数据集,并标注了细粒度的动作类别。我们的方法建立在时序位移模块(TSM)之上,通过引入背景类和分类固定长度的非重叠间隔来扩展TSM以处理TAL。我们采用多任务学习框架,联合优化场景分类和TAL,从而利用动作和环境之间的上下文线索。最后,我们通过加权集成策略整合多个模型,从而提高预测的鲁棒性和一致性。我们的方法在比赛的初始和扩展轮次中均排名第一,证明了多任务学习、高效骨干网络和集成学习相结合在TAL中的有效性。

🔬 方法详解

问题定义:论文旨在解决多视角、多模态视频中的时序动作定位(TAL)问题。现有方法在处理此类复杂场景时,往往难以充分利用不同视角和模态之间的上下文信息,导致定位精度下降。此外,如何有效区分动作和背景也是一个挑战。

核心思路:论文的核心思路是利用多任务学习框架,将时序动作定位与场景分类任务联合优化。通过共享特征表示,模型可以学习到动作与环境之间的关联性,从而提高动作定位的准确性。同时,扩展了时序位移模块(TSM),使其能够区分动作和背景。

技术框架:整体框架包含以下几个主要模块:1) 特征提取模块:使用TSM提取视频的时序特征。2) 动作定位模块:对固定长度的非重叠间隔进行分类,预测每个间隔所属的动作类别(包括背景类)。3) 场景分类模块:对视频的场景进行分类,提供上下文信息。4) 多任务学习模块:联合优化动作定位和场景分类的损失函数。5) 模型集成模块:通过加权集成多个模型,提高预测的鲁棒性和一致性。

关键创新:论文的关键创新在于:1) 扩展了TSM,使其能够处理时序动作定位任务,并区分动作和背景。2) 提出了多任务学习框架,将动作定位和场景分类联合优化,从而利用了动作和环境之间的上下文信息。3) 采用了模型集成策略,提高了预测的鲁棒性和一致性。

关键设计:在TSM中,引入了背景类,用于区分不包含任何动作的视频片段。在多任务学习中,使用了加权损失函数,平衡动作定位和场景分类任务的重要性。模型集成的权重通过交叉验证确定。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在ICCV 2025 BinEgo-360挑战赛中,在初始和扩展轮次均排名第一,证明了其在多视角、多模态视频时序动作定位方面的优越性能。通过多任务学习和模型集成,显著提高了动作定位的准确性和鲁棒性,相较于其他方法具有明显优势。

🎯 应用场景

该研究成果可应用于智能监控、机器人导航、人机交互等领域。例如,在智能监控中,可以利用该方法自动检测异常行为;在机器人导航中,可以帮助机器人理解人类的意图;在人机交互中,可以实现更自然、更智能的交互方式。未来,该方法有望在自动驾驶、医疗健康等领域发挥重要作用。

📄 摘要(原文)

We present our solution to the BinEgo-360 Challenge at ICCV 2025, which focuses on temporal action localization (TAL) in multi-perspective and multi-modal video settings. The challenge provides a dataset containing panoramic, third-person, and egocentric recordings, annotated with fine-grained action classes. Our approach is built on the Temporal Shift Module (TSM), which we extend to handle TAL by introducing a background class and classifying fixed-length non-overlapping intervals. We employ a multi-task learning framework that jointly optimizes for scene classification and TAL, leveraging contextual cues between actions and environments. Finally, we integrate multiple models through a weighted ensemble strategy, which improves robustness and consistency of predictions. Our method is ranked first in both the initial and extended rounds of the competition, demonstrating the effectiveness of combining multi-task learning, an efficient backbone, and ensemble learning for TAL.