MoTE: Reconciling Generalization with Specialization for Visual-Language to Video Knowledge Transfer
作者: Minghao Zhu, Zhengpu Wang, Mengxian Hu, Ronghao Dang, Xiao Lin, Xun Zhou, Chengju Liu, Qijun Chen
分类: cs.CV
发布日期: 2024-10-14
备注: NeurIPS 2024 Camera Ready
🔗 代码/项目: GITHUB
💡 一句话要点
提出MoTE框架,平衡视频识别中的泛化能力与特定任务性能。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视频识别 视觉-语言模型 知识迁移 时间建模 泛化能力 特定任务性能 混合专家 权重合并
📋 核心要点
- 现有视频识别方法在迁移视觉-语言知识时,增加参数化模块以适应时间信息,但牺牲了零样本泛化能力。
- MoTE框架通过混合时间专家学习多个任务视图,并采用权重合并正则化来保留专家知识,平衡泛化与特定化。
- 实验表明,MoTE在多个视频数据集上取得了领先或有竞争力的结果,有效平衡了零样本和闭集性能。
📝 摘要(中文)
本文提出了一种名为MoTE的新框架,旨在平衡视觉-语言知识从大规模基础模型迁移到视频识别中的泛化能力和特定任务性能。为了弥合领域差距,现有方法通常添加额外的参数化模块来捕获时间信息,但随着特定参数数量的增加,零样本泛化能力会降低,导致零样本性能和闭集性能之间的权衡。MoTE通过调整混合时间专家来学习具有不同数据拟合程度的多个任务视图,从而在一个统一的模型中实现泛化和特定化之间的平衡。为了最大限度地保留每个专家的知识,我们提出了权重合并正则化,该正则化在权重空间中对专家的合并过程进行约束。此外,还采用时间特征调制来约束测试期间时间特征的贡献。在Kinetics-400、Kinetics-600、UCF和HMDB等多个数据集上,我们实现了零样本和闭集视频识别任务之间的良好平衡,并获得了最先进或具有竞争力的结果。
🔬 方法详解
问题定义:现有方法在将视觉-语言知识迁移到视频识别时,为了适应视频的时间特性,通常会增加额外的参数化模块。然而,这些模块的引入虽然提升了模型在特定数据集上的性能(闭集性能),却降低了模型的零样本泛化能力,导致模型需要在泛化能力和特定任务性能之间进行权衡。
核心思路:MoTE的核心思路是通过引入多个“时间专家”(temporal experts),每个专家学习不同程度的任务特定知识,从而在泛化能力和特定任务性能之间取得平衡。通过混合这些专家,模型可以根据不同的任务需求,灵活地调整其行为,从而在零样本场景和闭集场景下都表现良好。
技术框架:MoTE框架主要包含以下几个部分:1) 预训练的视觉-语言模型(例如CLIP)作为 backbone;2) 多个时间专家模块,用于捕获视频的时间信息;3) 权重合并机制,用于将多个专家的知识融合到一个模型中;4) 时间特征调制模块,用于在测试阶段调整时间特征的贡献。整体流程是:首先,使用预训练的视觉-语言模型提取视频帧的视觉特征;然后,将这些特征输入到多个时间专家模块中,每个专家学习不同的时间模式;最后,通过权重合并机制将多个专家的知识融合,并使用时间特征调制模块调整时间特征的贡献,得到最终的视频表示。
关键创新:MoTE的关键创新在于以下两点:1) 混合时间专家:通过引入多个时间专家,模型可以学习到不同程度的任务特定知识,从而在泛化能力和特定任务性能之间取得平衡。2) 权重合并正则化:为了最大限度地保留每个专家的知识,MoTE提出了一种权重合并正则化方法,该方法在权重空间中对专家的合并过程进行约束,避免了知识的丢失。
关键设计:1) 时间专家模块:可以使用各种不同的网络结构,例如Transformer、LSTM等。2) 权重合并正则化:通过在损失函数中添加一个正则化项,约束合并后的权重与原始权重的差异。3) 时间特征调制:通过学习一个调制向量,调整时间特征的贡献,从而控制模型对时间信息的依赖程度。
🖼️ 关键图片
📊 实验亮点
MoTE在多个视频数据集上取得了显著的性能提升。例如,在Kinetics-400数据集上,MoTE的top-1准确率达到了state-of-the-art水平。此外,MoTE在零样本视频识别任务上也表现出色,证明了其良好的泛化能力。与现有方法相比,MoTE能够更好地平衡泛化能力和特定任务性能,从而在各种视频理解任务中取得更好的效果。
🎯 应用场景
MoTE框架可应用于各种视频理解任务,例如视频分类、动作识别、视频检索等。其平衡泛化能力和特定任务性能的特性,使其在实际应用中具有广泛的潜力,尤其是在数据稀缺或领域迁移的场景下。未来,该方法可以扩展到其他多模态任务,例如视频问答、视频描述等。
📄 摘要(原文)
Transferring visual-language knowledge from large-scale foundation models for video recognition has proved to be effective. To bridge the domain gap, additional parametric modules are added to capture the temporal information. However, zero-shot generalization diminishes with the increase in the number of specialized parameters, making existing works a trade-off between zero-shot and close-set performance. In this paper, we present MoTE, a novel framework that enables generalization and specialization to be balanced in one unified model. Our approach tunes a mixture of temporal experts to learn multiple task views with various degrees of data fitting. To maximally preserve the knowledge of each expert, we propose \emph{Weight Merging Regularization}, which regularizes the merging process of experts in weight space. Additionally with temporal feature modulation to regularize the contribution of temporal feature during test. We achieve a sound balance between zero-shot and close-set video recognition tasks and obtain state-of-the-art or competitive results on various datasets, including Kinetics-400 \& 600, UCF, and HMDB. Code is available at \url{https://github.com/ZMHH-H/MoTE}.