Efficient Transfer Learning for Video-language Foundation Models

📄 arXiv: 2411.11223v4 📥 PDF

作者: Haoxing Chen, Zizheng Huang, Yan Hong, Yanshuo Wang, Zhongcai Lyu, Zhuoer Xu, Jun Lan, Zhangxuan Gu

分类: cs.CV

发布日期: 2024-11-18 (更新: 2025-03-18)

备注: Accepted by CVPR 2025


💡 一句话要点

提出多模态时空适配器以解决视频语言模型的迁移学习问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视频语言模型 迁移学习 多模态时空适配器 时空描述 参数效率 过拟合 视频动作识别 一致性约束

📋 核心要点

  1. 现有视频语言模型在捕捉时间信息时常引入额外模块,导致参数增加和灾难性遗忘问题。
  2. 本文提出的多模态时空适配器(MSTA)通过增强文本与视觉表示的对齐,解决了参数效率与任务适应性之间的矛盾。
  3. 在零-shot迁移、少样本学习等四个任务中,MSTA在性能上优于许多现有方法,仅使用了原模型的2-7%参数。

📝 摘要(中文)

预训练的视觉-语言模型为各种下游任务提供了稳健的迁移学习基础。在视频动作识别领域,现有方法通常引入额外模块来捕捉时间信息,虽然这些模块提高了模型的能力,但也带来了大量新参数,并容易导致灾难性遗忘。本文提出了一种参数高效的多模态时空适配器(MSTA),以增强文本和视觉表示之间的对齐,平衡可泛化知识与任务特定适应性。此外,为了减轻过拟合并增强泛化能力,我们引入了时空描述引导的一致性约束,通过提供模板输入和生成的时空描述,强制两个分支之间的输出一致性。我们在四个任务上评估了该方法的有效性,结果表明MSTA在所有评估中表现优异,仅使用了原模型2-7%的可训练参数。

🔬 方法详解

问题定义:本文旨在解决现有视频语言模型在时间信息捕捉上的不足,尤其是引入额外模块后导致的参数膨胀和灾难性遗忘问题。

核心思路:提出多模态时空适配器(MSTA),通过增强文本与视觉表示的对齐,平衡可泛化知识与任务特定适应性,从而提高模型的迁移学习能力。

技术框架:MSTA的整体架构包括两个主要分支:可训练的语言分支和预训练的语言分支。通过引入时空描述引导的一致性约束,确保两个分支的输出一致性。

关键创新:MSTA的核心创新在于其参数效率,能够在仅使用2-7%可训练参数的情况下,显著提升模型在视频语言任务中的表现。

关键设计:设计中包括了模板输入和LLM生成的时空描述,以引导训练过程,并通过一致性约束减少过拟合,增强模型在时空语义空间中的可区分性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在四个任务的评估中,MSTA在零-shot迁移、少样本学习、基础到新颖的泛化和完全监督学习中均表现优异,相较于许多最先进的方法,性能提升显著,且仅使用了原模型2-7%的可训练参数。

🎯 应用场景

该研究的潜在应用领域包括视频监控、智能家居、自动驾驶等场景,能够有效提升视频理解和动作识别的准确性与效率。未来,该方法有望在多模态学习和人机交互等领域产生更广泛的影响。

📄 摘要(原文)

Pre-trained vision-language models provide a robust foundation for efficient transfer learning across various downstream tasks. In the field of video action recognition, mainstream approaches often introduce additional modules to capture temporal information. Although the additional modules increase the capacity of model, enabling it to better capture video-specific inductive biases, existing methods typically introduce a substantial number of new parameters and are prone to catastrophic forgetting of previously acquired generalizable knowledge. In this paper, we propose a parameter-efficient Multi-modal Spatio-Temporal Adapter (MSTA) to enhance the alignment between textual and visual representations, achieving a balance between generalizable knowledge and task-specific adaptation. Furthermore, to mitigate over-fitting and enhance generalizability, we introduce a spatio-temporal description-guided consistency constraint.This constraint involves providing template inputs (e.g., "a video of {\textbf{cls}}") to the trainable language branch and LLM-generated spatio-temporal descriptions to the pre-trained language branch, enforcing output consistency between the branches. This approach reduces overfitting to downstream tasks and enhances the distinguishability of the trainable branch within the spatio-temporal semantic space. We evaluate the effectiveness of our approach across four tasks: zero-shot transfer, few-shot learning, base-to-novel generalization, and fully-supervised learning. Compared to many state-of-the-art methods, our MSTA achieves outstanding performance across all evaluations, while using only 2-7\% of the trainable parameters in the original model.