VMT-Adapter: Parameter-Efficient Transfer Learning for Multi-Task Dense Scene Understanding
作者: Yi Xin, Junlong Du, Qiang Wang, Zhiwen Lin, Ke Yan
分类: cs.CV
发布日期: 2023-12-14 (更新: 2023-12-15)
备注: Accepted to AAAI2024
💡 一句话要点
提出VMT-Adapter,用于多任务密集场景理解的参数高效迁移学习。
🎯 匹配领域: 支柱三:空间感知与语义 (Perception & Semantics)
关键词: 多任务学习 参数高效迁移学习 密集场景理解 视觉适配器 预训练模型
📋 核心要点
- 现有视觉任务迁移学习方法通常需要微调所有参数,计算和存储成本高昂,且多任务场景下效率低下。
- VMT-Adapter通过共享跨任务知识并使用独立的知识提取模块保留任务特定知识,实现参数高效的多任务迁移学习。
- 实验表明,VMT-Adapter仅使用少量可训练参数,即可在多个密集场景理解任务上取得显著性能提升。
📝 摘要(中文)
大规模预训练模型在各种计算机视觉任务中取得了显著成功。利用这些模型的标准方法是对下游任务微调所有模型参数,这在计算和存储成本方面带来了挑战。最近,受自然语言处理(NLP)的启发,参数高效迁移学习已成功应用于视觉任务。然而,现有技术主要集中在单任务自适应上,而多任务自适应的研究有限,并且这些方法通常表现出次优的训练和推理效率。本文提出了一种一次性的视觉多任务适配器(VMT-Adapter),它在任务数量方面实现了近似O(1)的训练和推理效率。具体而言,VMT-Adapter共享来自多个任务的知识以增强跨任务交互,同时通过独立的知识提取模块保留特定于任务的知识。值得注意的是,由于特定于任务的模块需要少量参数,因此VMT-Adapter可以处理任意数量的任务,而可训练参数的增加可以忽略不计。我们还提出了VMT-Adapter-Lite,它通过学习下投影和上投影之间的共享参数来进一步减少可训练参数。在四个密集场景理解任务上的大量实验表明了VMT-Adapter(-Lite)的优越性,与单任务完全微调相比,实现了3.96%(1.34%)的相对改进,同时仅利用了预训练模型约1% (0.36%)的可训练参数。
🔬 方法详解
问题定义:论文旨在解决多任务密集场景理解中,使用大型预训练模型进行迁移学习时,参数微调带来的计算和存储成本高昂,以及现有方法在多任务场景下效率低下的问题。现有方法要么针对单任务优化,要么在多任务场景下无法有效平衡跨任务知识共享和任务特定知识保留。
核心思路:论文的核心思路是设计一个参数高效的适配器(Adapter),该适配器能够在多个任务之间共享知识,同时保留每个任务的独特性。通过这种方式,模型可以在处理多个任务时,仅需微调少量参数,从而降低计算和存储成本,并提高训练和推理效率。
技术框架:VMT-Adapter包含共享知识模块和任务特定知识提取模块。共享知识模块负责学习跨任务的通用表示,增强跨任务交互。任务特定知识提取模块则负责提取每个任务独有的信息,保证模型在不同任务上的性能。VMT-Adapter-Lite进一步引入了下投影和上投影之间的共享参数,以减少可训练参数。整体流程是,输入图像经过预训练模型提取特征后,通过VMT-Adapter进行任务自适应,最后输出对应任务的结果。
关键创新:VMT-Adapter的关键创新在于其“一次性(once-for-all)”的设计,即模型可以处理任意数量的任务,而可训练参数的增加可以忽略不计。这与传统的微调方法和现有的多任务学习方法形成了鲜明对比,后者通常需要为每个新任务增加大量参数。此外,VMT-Adapter-Lite通过共享投影参数进一步降低了参数量。
关键设计:VMT-Adapter的关键设计包括:1) 独立的知识提取模块,用于保留任务特定信息;2) 共享知识模块,用于增强跨任务交互;3) VMT-Adapter-Lite中的共享投影参数,用于进一步减少参数量。具体的参数设置和网络结构细节在论文中进行了详细描述,但摘要中未提供具体数值。
📊 实验亮点
实验结果表明,VMT-Adapter在四个密集场景理解任务上,与单任务完全微调相比,实现了3.96%的相对改进,而仅使用了预训练模型约1%的可训练参数。VMT-Adapter-Lite进一步降低了参数量,仅使用0.36%的可训练参数,仍能取得1.34%的相对改进。这证明了VMT-Adapter及其变体在参数效率和性能方面的优越性。
🎯 应用场景
VMT-Adapter适用于需要同时处理多个密集场景理解任务的场景,例如自动驾驶(语义分割、深度估计、目标检测)、机器人导航(场景理解、环境建模)等。该方法可以降低模型部署的计算和存储成本,提高多任务处理效率,并促进预训练模型在资源受限设备上的应用。
📄 摘要(原文)
Large-scale pre-trained models have achieved remarkable success in various computer vision tasks. A standard approach to leverage these models is to fine-tune all model parameters for downstream tasks, which poses challenges in terms of computational and storage costs. Recently, inspired by Natural Language Processing (NLP), parameter-efficient transfer learning has been successfully applied to vision tasks. However, most existing techniques primarily focus on single-task adaptation, and despite limited research on multi-task adaptation, these methods often exhibit suboptimal training and inference efficiency. In this paper, we first propose an once-for-all Vision Multi-Task Adapter (VMT-Adapter), which strikes approximately O(1) training and inference efficiency w.r.t task number. Concretely, VMT-Adapter shares the knowledge from multiple tasks to enhance cross-task interaction while preserves task-specific knowledge via independent knowledge extraction modules. Notably, since task-specific modules require few parameters, VMT-Adapter can handle an arbitrary number of tasks with a negligible increase of trainable parameters. We also propose VMT-Adapter-Lite, which further reduces the trainable parameters by learning shared parameters between down- and up-projections. Extensive experiments on four dense scene understanding tasks demonstrate the superiority of VMT-Adapter(-Lite), achieving a 3.96%(1.34%) relative improvement compared to single-task full fine-tuning, while utilizing merely ~1% (0.36%) trainable parameters of the pre-trained model.