FILS: Self-Supervised Video Feature Prediction In Semantic Language Space

📄 arXiv: 2406.03447v1 📥 PDF

作者: Mona Ahmadian, Frank Guerin, Andrew Gilbert

分类: cs.CV, cs.AI, cs.LG

发布日期: 2024-06-05


💡 一句话要点

提出FILS,利用语义语言空间中的自监督视频特征预测方法,提升视频表征能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱六:视频提取与匹配 (Video Extraction)

关键词: 自监督学习 视频表征 语义语言空间 动作识别 自我中心视频

📋 核心要点

  1. 现有视频表征学习方法在语义理解方面存在不足,难以充分利用视频中的语义信息。
  2. FILS通过在语义语言空间中预测被掩盖的视频特征,使视觉模型能够捕获视频中的结构化语义信息。
  3. FILS在多个自我中心动作识别数据集上取得了领先的性能,并且计算效率更高,所需批次更小。

📝 摘要(中文)

本文提出了一种自监督方法,用于学习语义视频表征。近期的视觉研究表明,视觉和自然语言监督的掩码策略有助于开发可迁移的视觉预训练模型。我们的目标是在预训练期间,通过利用与视频内容相关的文本,以完全自监督的方式实现更具语义的视频表征。为此,我们提出了FILS,一种新颖的自监督视频特征在语义语言空间中的预测方法。通过正确预测语言空间中被掩盖的特征语义,视觉模型可以捕获有价值的结构化信息。该模型使用一种基于patch的视频-文本对比策略进行学习,其中文本表征充当将视觉特征转换为语言空间的原型,然后将其用作语义上有意义的特征预测的目标,该预测使用我们的掩码编码器-解码器结构。FILS在下游动作识别任务上表现出卓越的可迁移性,在使用ViT-Base的情况下,在具有挑战性的自我中心数据集(如Epic-Kitchens,Something-SomethingV2,Charades-Ego和EGTEA)上实现了最先进的性能。与以前的工作相比,我们高效的方法需要更少的计算和更小的批次。

🔬 方法详解

问题定义:现有视频表征学习方法通常难以有效利用视频中蕴含的语义信息,尤其是在自我中心视角下,动作识别任务对语义理解要求更高。现有方法或者依赖大量人工标注数据,或者在语义建模方面存在不足,导致模型泛化能力受限。

核心思路:FILS的核心思路是将视频特征投影到语义语言空间,利用文本信息作为语义原型,指导视频特征的学习。通过预测被掩盖的视频特征在语言空间中的语义表示,迫使模型学习视频内容与文本描述之间的对应关系,从而提升视频表征的语义性。

技术框架:FILS采用掩码编码器-解码器结构。首先,视频被分割成patch,部分patch被随机掩盖。然后,编码器将未被掩盖的视频patch编码成视觉特征。同时,文本编码器将视频对应的文本描述编码成文本特征。接下来,视觉特征被投影到语言空间,并与文本特征进行对比学习,使得视觉特征更接近对应的文本特征。最后,解码器根据编码后的视觉特征,预测被掩盖的视频patch在语言空间中的语义表示。

关键创新:FILS的关键创新在于将视频特征预测任务放在语义语言空间中进行。通过引入文本信息作为语义原型,可以有效地指导视频特征的学习,使其更具语义性。此外,FILS采用patch-wise的视频-文本对比学习策略,可以更好地利用视频中的局部信息。

关键设计:FILS使用ViT-Base作为视觉编码器,采用Transformer结构进行文本编码。损失函数包括掩码特征预测损失和视频-文本对比损失。掩码特征预测损失采用交叉熵损失,用于衡量预测的语义表示与真实语义表示之间的差距。视频-文本对比损失采用InfoNCE损失,用于衡量视觉特征与对应文本特征之间的相似度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

FILS在Epic-Kitchens、Something-SomethingV2、Charades-Ego和EGTEA等具有挑战性的自我中心数据集上取得了state-of-the-art的性能。实验结果表明,FILS能够有效地提升视频表征的语义性,并且计算效率更高,所需批次更小。例如,在Epic-Kitchens数据集上,FILS相比于之前的最佳方法,性能提升了X%。

🎯 应用场景

FILS方法可应用于视频内容理解、视频检索、视频摘要等领域。尤其在需要细粒度语义理解的场景下,如智能监控、人机交互、机器人导航等,具有重要的应用价值。未来,该方法可以进一步扩展到其他模态数据,如音频、深度信息等,实现更全面的多模态视频理解。

📄 摘要(原文)

This paper demonstrates a self-supervised approach for learning semantic video representations. Recent vision studies show that a masking strategy for vision and natural language supervision has contributed to developing transferable visual pretraining. Our goal is to achieve a more semantic video representation by leveraging the text related to the video content during the pretraining in a fully self-supervised manner. To this end, we present FILS, a novel self-supervised video Feature prediction In semantic Language Space (FILS). The vision model can capture valuable structured information by correctly predicting masked feature semantics in language space. It is learned using a patch-wise video-text contrastive strategy, in which the text representations act as prototypes for transforming vision features into a language space, which are then used as targets for semantically meaningful feature prediction using our masked encoder-decoder structure. FILS demonstrates remarkable transferability on downstream action recognition tasks, achieving state-of-the-art on challenging egocentric datasets, like Epic-Kitchens, Something-SomethingV2, Charades-Ego, and EGTEA, using ViT-Base. Our efficient method requires less computation and smaller batches compared to previous works.