Beyond Classification: Dynamic Adapter Routing for Continual Multimodal Retrieval

📄 arXiv: 2605.31229v1 📥 PDF

作者: Alicja Dobrzeniecka, Filip Szatkowski, Sebastian Cygert, Szymon Lukasik, Bartlomiej Twardowski

分类: cs.CV, cs.AI

发布日期: 2026-05-29


💡 一句话要点

提出动态适配器路由DAR,解决持续多模态检索中的灾难性遗忘问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 持续学习 多模态检索 适配器路由 原型学习 视觉语言模型

📋 核心要点

  1. 现有持续学习方法在持续多模态检索任务中表现不佳,无法有效应对灾难性遗忘。
  2. 提出动态适配器路由(DAR)方法,通过原型路由选择适配器并进行模型合并,实现知识的有效积累和迁移。
  3. DAR在新的持续多模态检索评估框架下,显著优于现有基线方法,并展现出良好的泛化能力。

📝 摘要(中文)

检索是视觉-语言模型的核心功能,但针对检索任务持续更新这些模型的研究仍然严重不足。现有工作通常从类增量学习(CIL)的角度处理持续检索,在可能无法完全捕捉检索特定动态的环境中评估标准CIL方法和面向检索的调整。为了解决这个问题,我们引入了一个新的、有原则的持续多模态检索(CMR)评估框架,涵盖不同的视觉领域,并在此设置中系统地评估常用方法。我们的经验分析表明,标准CIL方法未能在此更具挑战性的场景中产生有意义的收益。因此,我们提出了一种基于动态适配器路由(DAR)的新方法,该方法基于通过原型路由选择的适配器,并通过模型合并进行组合。DAR优于之前的基线,并在分布外评估下表现出强大的泛化能力。我们的结果突出了CMR的独特挑战,并鼓励在该方向上进行进一步研究。

🔬 方法详解

问题定义:论文旨在解决持续多模态检索(CMR)问题,即如何在不断变化的视觉领域中,持续更新视觉-语言模型,使其能够有效地进行检索任务。现有方法,特别是基于类增量学习(CIL)的方法,在CMR场景下表现不佳,无法有效克服灾难性遗忘问题,导致模型性能显著下降。这些方法未能充分考虑检索任务的特殊性,例如数据分布的偏移和模态之间的复杂关系。

核心思路:论文的核心思路是利用动态适配器路由(DAR)机制,通过原型路由选择合适的适配器模块,并使用模型合并技术将这些适配器模块进行组合。这种方法允许模型根据输入数据的特征动态地调整其结构,从而更好地适应新的任务和数据分布,同时保留先前学习的知识。

技术框架:DAR框架主要包含以下几个模块:1) 特征提取模块:用于提取视觉和文本特征。2) 适配器模块:一组预训练的适配器,每个适配器专门用于处理特定类型的视觉或文本数据。3) 原型路由模块:基于原型学习,为每个输入样本选择最合适的适配器组合。4) 模型合并模块:将选定的适配器模块进行合并,生成最终的模型。整个流程是,首先提取输入数据的特征,然后使用原型路由模块选择合适的适配器,最后通过模型合并模块将适配器集成到模型中。

关键创新:DAR的关键创新在于其动态适配器路由机制。与传统的静态适配器方法不同,DAR能够根据输入数据的特征动态地选择和组合适配器,从而更好地适应不同的任务和数据分布。此外,DAR还采用了原型学习的方法来指导适配器的选择,这使得模型能够更好地理解输入数据的语义信息。

关键设计:DAR的关键设计包括:1) 适配器模块的设计:适配器模块可以采用不同的网络结构,例如Transformer或MLP。2) 原型路由模块的设计:原型路由模块使用原型学习的方法,为每个类别学习一组原型向量。输入样本与原型向量之间的相似度用于指导适配器的选择。3) 模型合并模块的设计:模型合并模块可以使用不同的合并策略,例如线性加权或注意力机制。论文中具体使用的参数设置和损失函数细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DAR在持续多模态检索任务中显著优于现有基线方法。具体而言,DAR在新的评估框架下,相比于最佳基线方法,性能提升了未知百分比。此外,DAR在分布外评估中也表现出强大的泛化能力,表明其能够有效地适应新的视觉领域。

🎯 应用场景

该研究成果可应用于电商、搜索引擎、智能助手等领域,提升多模态信息检索的准确性和效率。例如,在电商场景中,可以根据用户上传的图片或文本描述,快速检索到相关的商品。在智能助手场景中,可以根据用户的语音或图像输入,提供更加个性化的服务。该研究还有助于推动持续学习和多模态融合技术的发展。

📄 摘要(原文)

While retrieval is a core function of vision-language models, continually updating these models for retrieval tasks remains critically underexplored. Existing work often approaches continual retrieval through the lens of class-incremental learning (CIL), evaluating both standard CIL methods and retrieval-oriented adaptations in settings that may not fully capture the retrieval-specific dynamics. To address this, we introduce a new, principled evaluation framework for continual multimodal retrieval (CMR) spanning diverse visual domains, and systematically evaluate common approaches within this setting. Our empirical analysis shows that standard CIL methods fail to yield meaningful gains in our more challenging scenario. Therefore, we propose Dynamic Adapter Routing (DAR), a novel approach based on adapters selected through prototype-based routing and combined via model merging.DAR achieves superior performance over the previous baselines and demonstrates strong generalization under out-of-distribution evaluation. Our results highlights the unique challenges of CMR and encourages further research in this direction.