CM3T: Framework for Efficient Multimodal Learning for Inhomogeneous Interaction Datasets

作者: Tanay Agrawal, Mohammed Guermal, Michal Balazia, Francois Bremond

分类: cs.CV

发布日期: 2025-01-06

备注: Preprint. Final paper accepted at the IEEE/CVF Winter Conference on Applications of Computer Vision (WACV), Tucson, February, 2025. 10 pages

💡 一句话要点

CM3T：一种高效的多模态学习框架，用于异构交互数据集。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 迁移学习 Transformer Adapter 视频理解 跨领域学习 模型压缩

📋 核心要点

现有跨领域学习方法面临数据异构、数据量不足以及重新训练大型预训练模型成本过高等挑战。
CM3T通过引入多头视觉adapters和交叉注意力adapters，实现Transformer模型对新信息或缺失信息的自适应。
实验结果表明，CM3T在多个数据集上取得了与SOTA相当甚至更好的性能，同时显著降低了训练参数量。

📝 摘要（中文）

本文提出了一种名为CM3T的模型无关插件架构，用于跨领域学习，旨在解决训练数据异构或不足以及缺乏资源重新训练大型预训练模型的问题。CM3T受到NLP中迁移学习技术（如adapters和prefix tuning）的启发，能够使基于Transformer的模型适应新的或缺失的信息。该架构引入了两个adapter块：用于迁移学习的多头视觉adapters和用于多模态学习的交叉注意力adapters。由于backbone和其他插件无需与这些新增模块一起进行微调，因此训练效率显著提高。在Epic-Kitchens-100、MPIIGroupInteraction和UDIVA v0.5三个数据集上的对比和消融研究表明，该框架在不同的记录设置和任务中均有效。与backbone相比，仅需训练12.8%的参数即可处理视频输入，而对于两个额外的模态，仅需训练22.3%的参数，即可实现与最先进技术相当甚至更好的结果。CM3T对训练或预训练没有特定要求，是弥合通用模型与视频分类的特定实际应用之间差距的一步。

🔬 方法详解

问题定义：论文旨在解决跨领域学习中，由于训练数据异构或不足，以及缺乏资源重新训练大型预训练模型而导致的模型泛化能力不足的问题。现有方法通常需要对整个模型进行微调，计算成本高昂，且容易过拟合。

核心思路：论文的核心思路是借鉴NLP中的迁移学习技术，如adapters和prefix tuning，设计一种模型无关的插件式架构，使得模型能够快速适应新的或缺失的信息，而无需对整个模型进行微调。通过引入adapter模块，实现知识的迁移和融合。

技术框架：CM3T框架主要包含以下几个部分：1) Backbone模型（基于Transformer）；2) 多头视觉adapters，用于迁移学习，处理视觉输入；3) 交叉注意力adapters，用于多模态学习，融合不同模态的信息。整体流程是，首先通过Backbone模型提取特征，然后通过视觉adapters进行特征调整，最后通过交叉注意力adapters融合不同模态的特征，完成最终的任务。

关键创新：CM3T的关键创新在于其模型无关的插件式架构，以及针对视觉和多模态学习设计的adapter模块。与传统的微调方法相比，CM3T只需要训练少量的adapter参数，大大提高了训练效率，并降低了过拟合的风险。此外，CM3T对训练或预训练没有特定要求，具有很强的通用性。

关键设计：CM3T的关键设计包括：1) 多头视觉adapters，采用多头注意力机制，能够捕捉不同尺度的视觉特征；2) 交叉注意力adapters，通过交叉注意力机制，实现不同模态信息的有效融合；3) 损失函数采用标准的交叉熵损失函数，用于分类任务。参数设置方面，adapter模块的维度通常远小于Backbone模型的维度，以减少训练参数量。

🖼️ 关键图片

📊 实验亮点

CM3T在Epic-Kitchens-100、MPIIGroupInteraction和UDIVA v0.5三个数据集上进行了评估。实验结果表明，CM3T仅需训练12.8%的参数即可处理视频输入，仅需训练22.3%的参数即可处理两个额外的模态，即可实现与SOTA相当甚至更好的结果。例如，在Epic-Kitchens-100数据集上，CM3T取得了与SOTA相当的性能，同时显著降低了训练参数量。

🎯 应用场景

CM3T框架可广泛应用于视频理解、人机交互、智能监控等领域。例如，在视频行为识别中，可以利用CM3T快速适应新的场景和行为类别，而无需重新训练整个模型。该研究有助于推动通用视频理解模型的发展，并降低模型部署和维护的成本。

📄 摘要（原文）

Challenges in cross-learning involve inhomogeneous or even inadequate amount of training data and lack of resources for retraining large pretrained models. Inspired by transfer learning techniques in NLP, adapters and prefix tuning, this paper presents a new model-agnostic plugin architecture for cross-learning, called CM3T, that adapts transformer-based models to new or missing information. We introduce two adapter blocks: multi-head vision adapters for transfer learning and cross-attention adapters for multimodal learning. Training becomes substantially efficient as the backbone and other plugins do not need to be finetuned along with these additions. Comparative and ablation studies on three datasets Epic-Kitchens-100, MPIIGroupInteraction and UDIVA v0.5 show efficacy of this framework on different recording settings and tasks. With only 12.8% trainable parameters compared to the backbone to process video input and only 22.3% trainable parameters for two additional modalities, we achieve comparable and even better results than the state-of-the-art. CM3T has no specific requirements for training or pretraining and is a step towards bridging the gap between a general model and specific practical applications of video classification.

CM3T: Framework for Efficient Multimodal Learning for Inhomogeneous Interaction Datasets

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理