SViTT-Ego: A Sparse Video-Text Transformer for Egocentric Video

作者: Hector A. Valdez, Kyle Min, Subarna Tripathi

分类: cs.CV, cs.AI

发布日期: 2024-06-13

💡 一句话要点

提出SViTT-Ego：一种稀疏视频-文本Transformer模型，用于提升第一人称视角视频理解。

🎯 匹配领域: 支柱六：视频提取与匹配 (Video Extraction) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 第一人称视角视频 视频-文本Transformer 稀疏化 EgoNCE 对比学习

📋 核心要点

现有第一人称视角视频-文本Transformer模型预训练时内存占用大，限制了其应用。
SViTT-Ego通过引入边和节点稀疏化，降低了Transformer模型的内存占用，使其能在资源受限设备上预训练。
实验表明，SViTT-Ego在EgoMCQ准确率上优于LAVILA large，无需额外数据增强，展现了其有效性。

📝 摘要（中文）

本文提出SViTT-Ego，一种稀疏的第一人称视角视频-文本Transformer模型，集成了边和节点的稀疏化。预训练第一人称视角视觉-语言模型对于提升下游视频-文本任务至关重要。这些基础模型通常使用Transformer架构，但在预训练期间，模型的内存占用可能非常大。SViTT-Ego在EgoClip数据集上进行预训练，并采用适用于第一人称视角的EgoNCE目标函数，而非常用的InfoNCE。最值得注意的是，与LAVILA large相比，SViTT-Ego在EgoMCQ（视频内）准确率上获得了+2.8%的提升，且未使用额外的数据增强技术（仅使用标准图像增强），同时可以在内存受限的设备上进行预训练。

🔬 方法详解

问题定义：现有第一人称视角视频-文本Transformer模型在预训练时，由于Transformer架构本身的复杂度，导致内存占用非常大，这限制了模型在资源受限设备上的应用，阻碍了其进一步发展和部署。因此，需要一种能够在保持性能的同时，显著降低内存占用的模型结构。

核心思路：SViTT-Ego的核心思路是通过引入稀疏化技术，减少Transformer模型中的冗余连接，从而降低计算复杂度和内存占用。具体来说，该模型同时采用了边稀疏化和节点稀疏化，以更有效地减少模型参数和计算量。此外，针对第一人称视角视频的特点，采用了EgoNCE损失函数，以更好地学习视频和文本之间的关联。

技术框架：SViTT-Ego的整体架构是一个视频-文本Transformer模型，包含以下主要模块：视频编码器、文本编码器和跨模态交互模块。视频编码器负责将视频帧转换为视觉特征，文本编码器负责将文本描述转换为文本特征。跨模态交互模块则利用Transformer结构，将视觉特征和文本特征进行融合，学习它们之间的关联。关键在于，在Transformer的自注意力层中，引入了边稀疏化和节点稀疏化。

关键创新：SViTT-Ego最重要的技术创新点在于同时集成了边稀疏化和节点稀疏化，这是首个应用于第一人称视角视频-文本Transformer模型的稀疏化方法。边稀疏化通过移除不重要的连接来减少计算量，节点稀疏化通过减少节点的数量来降低内存占用。此外，使用EgoNCE损失函数，更适合第一人称视角视频的特点。

关键设计：在边稀疏化方面，采用了基于重要性的剪枝策略，移除权重较低的连接。在节点稀疏化方面，采用了基于激活值的选择策略，选择激活值较高的节点。EgoNCE损失函数是一种对比学习损失，旨在最大化正样本对（视频和对应的文本描述）之间的相似度，同时最小化负样本对之间的相似度。具体的稀疏化比例和损失函数权重等超参数需要根据实验进行调整。

🖼️ 关键图片

📊 实验亮点

SViTT-Ego在EgoMCQ数据集上取得了显著的性能提升，相较于LAVILA large模型，准确率提高了2.8%，并且无需额外的数据增强技术。这一结果表明，SViTT-Ego在降低内存占用的同时，仍然能够保持甚至提升模型的性能，使其更适用于资源受限的设备。

🎯 应用场景

SViTT-Ego的潜在应用领域包括：智能助手、可穿戴设备、人机交互、虚拟现实和增强现实等。该模型可以用于理解用户的意图和行为，从而提供更个性化和智能化的服务。例如，它可以帮助智能眼镜识别用户正在观看的物体，并提供相关的文本信息。此外，该模型还可以用于训练机器人，使其能够理解人类的指令，并执行相应的任务。

📄 摘要（原文）

Pretraining egocentric vision-language models has become essential to improving downstream egocentric video-text tasks. These egocentric foundation models commonly use the transformer architecture. The memory footprint of these models during pretraining can be substantial. Therefore, we pretrain SViTT-Ego, the first sparse egocentric video-text transformer model integrating edge and node sparsification. We pretrain on the EgoClip dataset and incorporate the egocentric-friendly objective EgoNCE, instead of the frequently used InfoNCE. Most notably, SViTT-Ego obtains a +2.8% gain on EgoMCQ (intra-video) accuracy compared to LAVILA large, with no additional data augmentation techniques other than standard image augmentations, yet pretrainable on memory-limited devices.

SViTT-Ego: A Sparse Video-Text Transformer for Egocentric Video

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理