SViTT-Ego: A Sparse Video-Text Transformer for Egocentric Video
作者: Hector A. Valdez, Kyle Min, Subarna Tripathi
分类: cs.CV, cs.AI
发布日期: 2024-06-13
💡 一句话要点
提出SViTT-Ego:一种稀疏视频-文本Transformer模型,用于提升第一人称视角视频理解。
🎯 匹配领域: 支柱六:视频提取与匹配 (Video Extraction) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 第一人称视角视频 视频-文本Transformer 稀疏化 EgoNCE 对比学习
📋 核心要点
- 现有第一人称视角视频-文本Transformer模型预训练时内存占用大,限制了其应用。
- SViTT-Ego通过引入边和节点稀疏化,降低了Transformer模型的内存占用,使其能在资源受限设备上预训练。
- 实验表明,SViTT-Ego在EgoMCQ准确率上优于LAVILA large,无需额外数据增强,展现了其有效性。
📝 摘要(中文)
本文提出SViTT-Ego,一种稀疏的第一人称视角视频-文本Transformer模型,集成了边和节点的稀疏化。预训练第一人称视角视觉-语言模型对于提升下游视频-文本任务至关重要。这些基础模型通常使用Transformer架构,但在预训练期间,模型的内存占用可能非常大。SViTT-Ego在EgoClip数据集上进行预训练,并采用适用于第一人称视角的EgoNCE目标函数,而非常用的InfoNCE。最值得注意的是,与LAVILA large相比,SViTT-Ego在EgoMCQ(视频内)准确率上获得了+2.8%的提升,且未使用额外的数据增强技术(仅使用标准图像增强),同时可以在内存受限的设备上进行预训练。
🔬 方法详解
问题定义:现有第一人称视角视频-文本Transformer模型在预训练时,由于Transformer架构本身的复杂度,导致内存占用非常大,这限制了模型在资源受限设备上的应用,阻碍了其进一步发展和部署。因此,需要一种能够在保持性能的同时,显著降低内存占用的模型结构。
核心思路:SViTT-Ego的核心思路是通过引入稀疏化技术,减少Transformer模型中的冗余连接,从而降低计算复杂度和内存占用。具体来说,该模型同时采用了边稀疏化和节点稀疏化,以更有效地减少模型参数和计算量。此外,针对第一人称视角视频的特点,采用了EgoNCE损失函数,以更好地学习视频和文本之间的关联。
技术框架:SViTT-Ego的整体架构是一个视频-文本Transformer模型,包含以下主要模块:视频编码器、文本编码器和跨模态交互模块。视频编码器负责将视频帧转换为视觉特征,文本编码器负责将文本描述转换为文本特征。跨模态交互模块则利用Transformer结构,将视觉特征和文本特征进行融合,学习它们之间的关联。关键在于,在Transformer的自注意力层中,引入了边稀疏化和节点稀疏化。
关键创新:SViTT-Ego最重要的技术创新点在于同时集成了边稀疏化和节点稀疏化,这是首个应用于第一人称视角视频-文本Transformer模型的稀疏化方法。边稀疏化通过移除不重要的连接来减少计算量,节点稀疏化通过减少节点的数量来降低内存占用。此外,使用EgoNCE损失函数,更适合第一人称视角视频的特点。
关键设计:在边稀疏化方面,采用了基于重要性的剪枝策略,移除权重较低的连接。在节点稀疏化方面,采用了基于激活值的选择策略,选择激活值较高的节点。EgoNCE损失函数是一种对比学习损失,旨在最大化正样本对(视频和对应的文本描述)之间的相似度,同时最小化负样本对之间的相似度。具体的稀疏化比例和损失函数权重等超参数需要根据实验进行调整。
🖼️ 关键图片
📊 实验亮点
SViTT-Ego在EgoMCQ数据集上取得了显著的性能提升,相较于LAVILA large模型,准确率提高了2.8%,并且无需额外的数据增强技术。这一结果表明,SViTT-Ego在降低内存占用的同时,仍然能够保持甚至提升模型的性能,使其更适用于资源受限的设备。
🎯 应用场景
SViTT-Ego的潜在应用领域包括:智能助手、可穿戴设备、人机交互、虚拟现实和增强现实等。该模型可以用于理解用户的意图和行为,从而提供更个性化和智能化的服务。例如,它可以帮助智能眼镜识别用户正在观看的物体,并提供相关的文本信息。此外,该模型还可以用于训练机器人,使其能够理解人类的指令,并执行相应的任务。
📄 摘要(原文)
Pretraining egocentric vision-language models has become essential to improving downstream egocentric video-text tasks. These egocentric foundation models commonly use the transformer architecture. The memory footprint of these models during pretraining can be substantial. Therefore, we pretrain SViTT-Ego, the first sparse egocentric video-text transformer model integrating edge and node sparsification. We pretrain on the EgoClip dataset and incorporate the egocentric-friendly objective EgoNCE, instead of the frequently used InfoNCE. Most notably, SViTT-Ego obtains a +2.8% gain on EgoMCQ (intra-video) accuracy compared to LAVILA large, with no additional data augmentation techniques other than standard image augmentations, yet pretrainable on memory-limited devices.