ProtoAda: Prototype-Guided Adaptive Adapter Expansion and Geometric Consolidation for Multimodal Continual Instruction Tuning

📄 arXiv: 2606.02576v1 📥 PDF

作者: Yu-Cheng Shi, Zhen-Hao Xie, Jun-Tao Tang, Da-Wei Zhou

分类: cs.CV, cs.LG

发布日期: 2026-06-01


💡 一句话要点

ProtoAda:原型引导的自适应Adapter扩展与几何整合,用于多模态持续指令调优

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 持续学习 指令调优 任务路由 原型学习

📋 核心要点

  1. 现有MCIT方法依赖图像-文本相似性进行任务路由,忽略了任务输出结构,导致梯度干扰和专家协作效率低下。
  2. ProtoAda引入格式感知的任务原型,对齐任务分配与任务语义和输出结构,并以几何感知的方式整合更新。
  3. 实验表明,ProtoAda在多个基准上表现优异,尤其在答案结构易被破坏的任务上,性能提升显著。

📝 摘要(中文)

多模态大型语言模型(MLLM)通过指令调优实现了强大的性能,但实际部署需要它们不断获取新的视觉-语言能力,这使得多模态持续指令调优(MCIT)至关重要。为了减少任务间的干扰并促进协作,最近的方法通常采用稀疏架构,如带有图像-文本相似性路由的LoRA专家混合模型。然而,具有不同响应结构的任务可能共享高度相似的视觉-语言语义,因此被错误地路由到同一专家;仅凭图像-文本相似性不足以实现可靠的任务分配。例如,一个需要坐标预测的 grounding 任务的专家,在学习了语义相似的 VQA 任务后,可能会倾向于产生简短的文本答案。这种忽略格式的任务分配将异构响应类型集成到共享参数中,导致梯度干扰和无效的专家协作。为了解决这个问题,我们提出了 ProtoAda,一个原型引导的自适应调优框架。ProtoAda 引入了格式感知的任务原型,以使任务分配和路由与任务语义和输出结构对齐,并以几何感知的方式进一步整合格式兼容的更新,以有效地重用和逐步改进现有参数。在多个基准上的大量实验表明,ProtoAda 实现了卓越的性能,尤其是在那些答案结构容易被顺序调优破坏的任务上。

🔬 方法详解

问题定义:多模态持续指令调优(MCIT)旨在使MLLM能够持续学习新的视觉-语言能力。现有方法,如基于LoRA专家混合模型的方法,依赖图像-文本相似性进行任务路由,但忽略了任务输出结构(例如,VQA任务输出文本,而grounding任务输出坐标)。这导致语义相似但输出结构不同的任务被分配到同一专家,造成梯度干扰,影响模型性能。

核心思路:ProtoAda的核心思路是引入“格式感知”的任务原型,将任务的语义信息和输出结构信息都纳入任务路由的考虑范围。通过学习每个任务的格式原型,ProtoAda能够更准确地将任务分配给合适的专家,从而减少任务间的干扰,提高专家协作的效率。同时,ProtoAda采用几何感知的方式整合格式兼容的更新,以更好地重用和改进现有参数。

技术框架:ProtoAda框架主要包含以下几个模块:1) 格式感知任务原型学习模块:学习每个任务的格式原型,用于指导任务路由。2) 自适应Adapter扩展模块:根据任务的需要,自适应地扩展Adapter的数量。3) 几何整合模块:以几何感知的方式整合格式兼容的更新,避免灾难性遗忘。整体流程是,对于一个新的任务,首先学习其格式原型,然后根据格式原型进行任务路由,选择合适的专家进行训练,最后以几何感知的方式整合更新。

关键创新:ProtoAda的关键创新在于引入了“格式感知”的任务原型,并将任务的输出结构信息纳入任务路由的考虑范围。这与现有方法仅依赖图像-文本相似性进行任务路由形成了本质区别。通过考虑任务的输出结构,ProtoAda能够更准确地将任务分配给合适的专家,从而减少任务间的干扰,提高专家协作的效率。

关键设计:ProtoAda的关键设计包括:1) 格式原型的表示方法:可以使用embedding向量来表示格式原型。2) 任务路由策略:可以使用相似度度量(例如,余弦相似度)来衡量任务与格式原型之间的相似度,并根据相似度进行任务路由。3) 几何整合方法:可以使用梯度投影等方法,将格式兼容的更新投影到已学习参数的有效子空间中,避免灾难性遗忘。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

ProtoAda在多个MCIT基准测试中表现出色,尤其是在答案结构容易被顺序调优破坏的任务上,性能提升显著。实验结果表明,ProtoAda能够有效地减少任务间的干扰,提高专家协作的效率,从而实现更好的持续学习效果。相较于现有方法,ProtoAda在多个指标上均取得了显著的提升。

🎯 应用场景

ProtoAda可应用于各种需要持续学习新视觉-语言能力的多模态场景,例如智能助手、自动驾驶、医疗诊断等。通过不断学习新的任务和技能,MLLM可以更好地适应复杂多变的应用环境,提供更智能、更可靠的服务。该研究有助于提升MLLM的泛化能力和鲁棒性,推动多模态人工智能的发展。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) achieve strong performance through instruction tuning, but real-world deployment requires them to continually acquire new vision-language capabilities, making Multimodal Continual Instruction Tuning (MCIT) essential. To reduce inter-task interference and promote collaboration, recent methods often employ sparse architectures like Mixture of LoRA Experts with image-text similarity routing. However, tasks with distinct response structures could share highly similar visual-linguistic semantics and thus be wrongly routed to the same expert; image-text similarity alone is insufficient for reliable task assignment. For example, an expert in a grounding task requiring coordinate prediction may be biased toward producing short textual answers after learning semantically similar VQA tasks. This format-blind task assignment integrates heterogeneous response types into shared parameters, inducing gradient interference and ineffective expert collaboration. To address this problem, we propose ProtoAda, a prototype-guided adaptive tuning framework. ProtoAda introduces format-aware task prototypes to align task assignment and routing with both task semantics and output structure, and further consolidates format-compatible updates in a geometry-aware manner to effectively reuse and progressively refine existing parameters. Extensive experiments on multiple benchmarks demonstrate that ProtoAda achieves superior performance, especially on tasks whose answer structures are easily corrupted by sequential tuning.