InstrAct: Towards Action-Centric Understanding in Instructional Videos

📄 arXiv: 2604.08762v1 📥 PDF

作者: Zhuoyi Yang, Jiapeng Yu, Reuben Tan, Boyang Li, Huijuan Xu

分类: cs.CV, cs.AI

发布日期: 2026-04-09


💡 一句话要点

InstrAct:面向教学视频,提出动作中心理解的预训练框架。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 教学视频理解 动作中心表示 预训练框架 对比学习 动态时间规整

📋 核心要点

  1. 现有视频基础模型在理解教学视频时,面临着噪声数据和“静态偏差”的挑战,难以准确识别细粒度动作。
  2. InstrAct框架通过数据过滤、动作感知器和辅助学习目标,着重学习视频中与动作相关的特征,提升模型对动作的理解能力。
  3. InstrAct在InstrAct Bench上进行了评估,实验结果表明,该方法在语义推理、程序逻辑和细粒度检索任务上均优于现有方法。

📝 摘要(中文)

理解教学视频需要识别细粒度的动作并建模它们的时间关系,这对当前的视频基础模型(VFMs)来说仍然具有挑战性。这种困难源于嘈杂的网络监督和普遍存在的“静态偏差”,即模型依赖于对象而不是运动线索。为了解决这个问题,我们提出了InstrAct,一个用于教学视频的动作中心表示的预训练框架。我们首先引入了一种数据驱动的策略,该策略过滤掉嘈杂的字幕,并生成以动作为中心的难负样本,以在对比学习期间将动作与对象分离。在视觉特征层面,一个动作感知器从冗余的视频编码中提取与运动相关的token。除了对比学习之外,我们还引入了两个辅助目标:用于建模顺序时间结构的动态时间规整对齐(DTW-Align)和用于加强跨模态对齐的掩码动作建模(MAM)。最后,我们引入了InstrAct Bench来评估动作中心理解,我们的方法在语义推理、程序逻辑和细粒度检索任务上始终优于最先进的VFMs。

🔬 方法详解

问题定义:现有视频基础模型(VFMs)在理解教学视频时,容易受到网络数据集中噪声字幕的干扰,并且存在“静态偏差”,即模型过度依赖于静态的对象信息,而忽略了视频中重要的动作信息。这导致模型难以准确识别和理解教学视频中的细粒度动作及其时间关系,限制了其在相关任务中的应用。

核心思路:InstrAct的核心思路是构建一个以动作为中心的预训练框架,通过数据过滤、特征提取和辅助学习目标,使模型能够更加关注视频中的动作信息,从而提升其对教学视频的理解能力。该方法旨在减少噪声数据的影响,并克服“静态偏差”,使模型能够更好地捕捉动作的细微变化和时间关系。

技术框架:InstrAct框架主要包含以下几个模块:1) 数据驱动的难负样本生成策略,用于过滤噪声字幕并生成以动作为中心的难负样本,以在对比学习期间区分动作和对象。2) 动作感知器(Action Perceiver),用于从冗余的视频编码中提取与运动相关的token。3) 动态时间规整对齐(DTW-Align),用于建模动作的顺序时间结构。4) 掩码动作建模(MAM),用于加强跨模态对齐。

关键创新:InstrAct的关键创新在于其动作中心的设计理念和多个模块的协同作用。具体来说,数据驱动的难负样本生成策略能够有效减少噪声数据的影响,动作感知器能够提取与运动相关的特征,DTW-Align和MAM能够分别建模动作的时间关系和跨模态对齐。这些创新共同作用,使得InstrAct能够更好地理解教学视频中的动作信息。

关键设计:在数据驱动的难负样本生成策略中,采用了特定的过滤算法来去除噪声字幕。动作感知器可能采用了Transformer或其他注意力机制来提取与运动相关的token。DTW-Align可能使用了动态时间规整算法来对齐不同长度的动作序列。MAM可能采用了掩码语言建模的思想,随机掩盖一部分动作描述,然后让模型预测被掩盖的动作。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

InstrAct在InstrAct Bench上进行了评估,并在语义推理、程序逻辑和细粒度检索任务上均取得了显著的性能提升。具体来说,InstrAct在这些任务上的表现均优于现有的视频基础模型,证明了其在动作中心理解方面的有效性。实验结果表明,InstrAct能够更好地捕捉教学视频中的动作信息,从而提升模型的理解能力。

🎯 应用场景

InstrAct在教学视频理解方面具有广泛的应用前景,例如智能教学辅助、视频检索、自动视频摘要和机器人技能学习等。通过提升模型对动作的理解能力,可以实现更智能的教学内容推荐、更精确的视频搜索和更高效的技能迁移。该研究的成果有助于推动人工智能在教育领域的应用。

📄 摘要(原文)

Understanding instructional videos requires recognizing fine-grained actions and modeling their temporal relations, which remains challenging for current Video Foundation Models (VFMs). This difficulty stems from noisy web supervision and a pervasive "static bias", where models rely on objects rather than motion cues. To address this, we propose InstrAction, a pretraining framework for instructional videos' action-centric representations. We first introduce a data-driven strategy, which filters noisy captions and generates action-centric hard negatives to disentangle actions from objects during contrastive learning. At the visual feature level, an Action Perceiver extracts motion-relevant tokens from redundant video encodings. Beyond contrastive learning, we introduce two auxiliary objectives: Dynamic Time Warping alignment (DTW-Align) for modeling sequential temporal structure, and Masked Action Modeling (MAM) for strengthening cross-modal grounding. Finally, we introduce the InstrAct Bench to evaluate action-centric understanding, where our method consistently outperforms state-of-the-art VFMs on semantic reasoning, procedural logic, and fine-grained retrieval tasks.