RMAdapter: Reconstruction-based Multi-Modal Adapter for Vision-Language Models
作者: Xiang Lin, Weixin Li, Shu Guo, Lihong Wang, Di Huang
分类: cs.CV, cs.AI, cs.LG, cs.MM
发布日期: 2025-12-07
备注: Accepted by AAAI 2026(Oral)
💡 一句话要点
提出RMAdapter,通过重构学习增强视觉-语言模型在少样本学习中的泛化能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 适配器 少样本学习 重构学习 领域泛化
📋 核心要点
- 现有视觉-语言模型在少样本学习中微调时,难以平衡任务特定适应性和泛化能力,且适配器方法研究不足。
- RMAdapter采用双分支结构,通过适应分支注入任务知识,重构分支保留通用知识,实现动态平衡。
- 实验表明,RMAdapter在推广到新类别、新数据集和领域泛化等任务上,性能优于现有方法。
📝 摘要(中文)
预训练的视觉-语言模型(VLMs),例如CLIP,已成为多模态迁移学习的重要工具。然而,在少样本场景下微调VLMs,在获得的模型中平衡任务特定适应性和泛化能力方面提出了重大挑战。同时,目前的研究主要集中在基于提示的适应方法上,使得基于适配器的方法未被充分探索,并暴露出显著的性能差距。为了应对这些挑战,我们引入了一种新颖的基于重构的多模态适配器(RMAdapter),它利用了双分支架构。与传统的单分支适配器不同,RMAdapter包含:(1)一个适应分支,通过参数高效的微调注入任务特定的知识,以及(2)一个重构分支,通过将潜在空间特征重构回原始特征空间来保留一般知识。这种设计有助于在一般知识和任务特定知识之间实现动态平衡。重要的是,尽管RMAdapter引入了一个额外的重构分支,但它经过精心优化以保持轻量级。通过在每一层局部计算重构损失并共享投影模块,整体计算开销保持在最低限度。还引入了一致性约束,以更好地调节可区分性和泛化之间的权衡。我们在三个代表性任务上全面评估了RMAdapter的有效性:推广到新类别、推广到新目标数据集和领域泛化。在不依赖数据增强或重复提示设计的情况下,我们的RMAdapter在所有评估指标上始终优于最先进的方法。
🔬 方法详解
问题定义:现有视觉-语言模型(VLMs)在少样本学习场景下微调时,面临着如何在任务特定适应性和泛化能力之间取得平衡的难题。传统的微调方法容易过拟合到特定任务,而基于Prompt的方法虽然有效,但适配器方法的潜力尚未被充分挖掘,存在性能差距。
核心思路:RMAdapter的核心思路是通过一个双分支结构,同时学习任务特定知识和保留通用知识。适应分支负责学习特定任务的特征,而重构分支则负责将学习到的特征重构回原始特征空间,从而保留模型的通用性。这种设计使得模型能够在适应新任务的同时,避免过度拟合,保持良好的泛化能力。
技术框架:RMAdapter包含两个主要分支:适应分支和重构分支。适应分支通过参数高效的微调来学习任务特定知识。重构分支则将适应分支学习到的潜在空间特征重构回原始特征空间。为了保持轻量级,重构损失在每一层局部计算,并且共享投影模块。此外,还引入了一致性约束来调节可区分性和泛化之间的权衡。整体流程是,输入图像和文本,经过视觉和文本编码器,然后分别通过适应分支和重构分支进行处理,最后通过一致性约束进行优化。
关键创新:RMAdapter的关键创新在于其双分支结构,它能够同时学习任务特定知识和保留通用知识。传统的适配器方法通常只关注任务特定知识的学习,而忽略了通用知识的保留,导致模型容易过拟合。RMAdapter通过重构分支显式地保留通用知识,从而提高了模型的泛化能力。此外,RMAdapter还通过局部计算重构损失和共享投影模块来降低计算开销,使其更加高效。
关键设计:RMAdapter的关键设计包括:1) 双分支结构:适应分支和重构分支并行工作,共同优化模型。2) 局部重构损失:在每一层计算重构损失,以保证每一层都能够保留通用知识。3) 共享投影模块:在不同层之间共享投影模块,以降低计算开销。4) 一致性约束:通过一致性约束来调节可区分性和泛化之间的权衡。具体的损失函数包括重构损失和一致性损失,其权重需要根据具体任务进行调整。
🖼️ 关键图片
📊 实验亮点
RMAdapter在三个代表性任务上进行了评估:推广到新类别、推广到新目标数据集和领域泛化。实验结果表明,在不依赖数据增强或重复提示设计的情况下,RMAdapter在所有评估指标上始终优于最先进的方法。这证明了RMAdapter在平衡任务特定适应性和泛化能力方面的有效性。
🎯 应用场景
RMAdapter可应用于各种视觉-语言任务,如图像分类、图像检索、视觉问答等。尤其适用于数据量较少的场景,能够提升模型在少样本学习和领域泛化方面的性能。该研究有助于推动视觉-语言模型在实际应用中的部署,例如智能客服、自动驾驶、医疗诊断等领域。
📄 摘要(原文)
Pre-trained Vision-Language Models (VLMs), \textit{e.g.} CLIP, have become essential tools in multimodal transfer learning. However, fine-tuning VLMs in few-shot scenarios poses significant challenges in balancing task-specific adaptation and generalization in the obtained model. Meanwhile, current researches have predominantly focused on prompt-based adaptation methods, leaving adapter-based approaches underexplored and revealing notable performance gaps. To address these challenges, we introduce a novel Reconstruction-based Multimodal Adapter (RMAdapter), which leverages a dual-branch architecture. Unlike conventional single-branch adapters, RMAdapter consists of: (1) an adaptation branch that injects task-specific knowledge through parameter-efficient fine-tuning, and (2) a reconstruction branch that preserves general knowledge by reconstructing latent space features back into the original feature space. This design facilitates a dynamic balance between general and task-specific knowledge. Importantly, although RMAdapter introduces an additional reconstruction branch, it is carefully optimized to remain lightweight. By computing reconstruction loss locally at each layer and sharing projection modules, the overall computational overhead is kept minimal. A consistency constraint is also incorporated to better regulate the trade-off between discriminability and generalization. We comprehensively evaluate the effectiveness of RMAdapter on three representative tasks: generalization to new categories, generalization to new target datasets, and domain generalization. Without relying on data augmentation or duplicate prompt designs, our RMAdapter consistently outperforms state-of-the-art approaches across all evaluation metrics.