Dynamic Cross-Modal Prompt Generation for Multimodal Continual Instruction Tuning

📄 arXiv: 2605.10765v1 📥 PDF

作者: Tao Hu, Da-Wei Zhou

分类: cs.CV, cs.AI, cs.LG

发布日期: 2026-05-11


💡 一句话要点

提出DRAPE框架:通过动态跨模态提示生成解决多模态持续指令微调中的灾难性遗忘问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态大模型 持续学习 指令微调 提示学习 交叉注意力 灾难性遗忘 零空间投影

📋 核心要点

  1. 现有方法依赖任务级模块组合,忽略了同一任务内样本在视觉场景与推理需求上的异质性,导致模型难以实现精细化的实例级适应。
  2. DRAPE框架通过交叉注意力机制,根据文本指令与视觉特征动态合成实例级软提示,实现了对输入对的深度条件化建模。
  3. 实验结果表明,DRAPE在多模态持续学习基准上优于主流的提示学习与LoRA方法,有效平衡了新任务学习与旧知识保持。

📝 摘要(中文)

多模态大语言模型(MLLMs)通过指令微调展现出卓越性能,但在实际部署中,模型往往需要持续学习以扩展任务能力。多模态持续指令微调(MCIT)旨在获取新能力的同时限制灾难性遗忘。现有方法多采用模块组合范式,即维护任务级提示或LoRA专家,并在推理时进行动态路由或聚合。然而,同一任务内的样本在视觉场景、问题意图及推理需求上存在显著差异,仅依赖任务级模块选择难以实现精细化适应。为此,本文提出了DRAPE(动态跨模态提示生成),这是一种为MCIT合成连续实例级软提示的提示学习框架。DRAPE不从固定池中选择提示,而是根据文本指令导出提示查询,并与视觉补丁特征进行交叉注意力计算,生成条件化的查询-图像提示,并将其前置于冻结的LLM中。为缓解持续更新过程中的遗忘,DRAPE对共享投影器应用了零空间梯度投影,并利用基于CLIP的原型路由实现推理时的无标签生成器选择。在MCIT基准测试上的实验表明,DRAPE在代表性的提示学习和LoRA基线中达到了最先进水平。

🔬 方法详解

问题定义:论文旨在解决多模态持续指令微调(MCIT)中的灾难性遗忘问题。现有方法多基于任务级模块(如LoRA专家或提示池),但未能捕捉同一任务内样本间的细粒度差异,导致模型在处理复杂多变的多模态输入时泛化能力受限。

核心思路:论文提出从“任务级选择”转向“实例级生成”。通过引入DRAPE框架,根据每个具体的查询-图像对动态生成软提示,使模型能够根据输入内容实时调整其行为,从而在不依赖固定模块池的情况下实现更强的适应性。

技术框架:DRAPE包含三个核心组件:提示生成器(Prompt Generator)、零空间梯度投影模块(Null-space Projection)以及基于CLIP的原型路由机制。模型将文本指令作为查询,通过交叉注意力机制提取视觉特征,生成前置于冻结LLM的软提示。

关键创新:最重要的创新在于将提示学习从静态选择升级为动态生成。通过利用输入对的跨模态信息合成提示,模型能够针对每个样本进行个性化调整,本质上区别于传统的离散化模块路由策略。

关键设计:为防止遗忘,模型在共享投影器上应用了零空间梯度投影(Null-space Gradient Projection),确保参数更新不干扰旧任务的知识空间。此外,采用基于CLIP的原型路由,在推理阶段无需任务标签即可自动选择合适的生成器参数,提升了系统的实用性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

DRAPE在多个MCIT基准测试中表现优异,显著超越了包括L2P、DualPrompt及LoRA-based方法在内的多种基线。实验数据表明,该方法在保持旧任务性能的同时,在新任务上的平均准确率提升了约3%-5%,证明了其在缓解灾难性遗忘方面的有效性。

🎯 应用场景

该研究适用于需要持续更新知识库的工业级多模态系统,如智能机器人视觉导航、动态环境下的多模态内容审核以及个性化多模态助手。其动态适应能力能显著提升模型在处理长尾任务和复杂场景时的鲁棒性与准确性。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) achieve strong performance through instruction tuning, yet real-world deployment often requires continual capability expansion across sequential tasks. In such scenarios, Multimodal Continual Instruction Tuning (MCIT) aims to acquire new capabilities while limiting catastrophic forgetting. Existing methods mainly follow a module-composition paradigm: they maintain task-level prompts or LoRA experts and dynamically route or aggregate a subset of them at inference. However, samples within the same task can still differ substantially in visual scenes, question intents, and reasoning demands. This motivates instance-level adaptation to individual query-image pairs rather than only selecting or combining task-level modules. To this end, we propose DRAPE (Dynamic Cross-Modal Prompt Generation), a prompt-learning framework that synthesizes continuous instance-specific soft prompts for MCIT. Instead of selecting prompts from a fixed pool, DRAPE derives prompt queries from the textual instruction and cross-attends to visual patch features, producing query-image conditioned prompts that are prepended to the frozen LLM. To mitigate forgetting during sequential updates, DRAPE applies null-space gradient projection to the shared projector and uses CLIP-based prototype routing for task-label-free generator selection at inference. Extensive experiments on MCIT benchmarks show that DRAPE achieves state-of-the-art performance among representative prompt-based and LoRA-based continual-learning baselines.