Align then Train: Efficient Retrieval Adapter Learning

📄 arXiv: 2604.03403 📥 PDF

作者: Seiji Maekawa, Moin Aminnaseri, Pouya Pezeshkpour, Estevam Hruschka

分类: cs.IR, cs.CL

发布日期: 2026-04-07


💡 一句话要点

提出ERA高效检索适配器,解决复杂查询下检索模型微调代价高昂的问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 稠密检索 检索适配器 自监督学习 监督学习 低资源学习

📋 核心要点

  1. 现有检索系统在处理复杂查询时,直接微调大型嵌入模型成本高昂,限制了其在资源受限场景下的应用。
  2. ERA框架通过自监督对齐和监督适应两个阶段,高效地训练检索适配器,弥合查询和文档之间的语义鸿沟。
  3. 实验表明,ERA在低标签环境下优于其他方法,能有效结合强查询嵌入器和弱文档嵌入器,提升检索性能。

📝 摘要(中文)

稠密检索系统日益需要处理复杂的查询。在许多实际场景中,用户通过冗长的指令或特定任务描述来表达意图,而目标文档则相对简单和静态。这种不对称性造成了检索不匹配:理解查询可能需要强大的推理和指令遵循能力,而高效的文档索引则倾向于轻量级编码器。现有的检索系统通常通过直接改进嵌入模型来解决这种不匹配,但微调大型嵌入模型以更好地遵循这些指令在计算上是昂贵的,内存密集型的,并且在操作上是繁重的。为了应对这一挑战,我们提出了高效检索适配器(ERA),这是一个标签高效的框架,它分两个阶段训练检索适配器:自监督对齐和监督适应。受LLM的预训练和监督微调阶段的启发,ERA首先对齐大型查询嵌入器和轻量级文档嵌入器的嵌入空间,然后使用有限的标记数据来调整查询侧表示,从而弥合嵌入模型之间的表示差距以及复杂查询和简单文档之间的语义差距,而无需重新索引语料库。在MAIR基准测试上的实验,涵盖了6个领域的126个检索任务,表明ERA在低标签设置下改进了检索,优于依赖于大量标记数据的方法,并有效地将更强的查询嵌入器与跨领域的较弱文档嵌入器相结合。

🔬 方法详解

问题定义:论文旨在解决复杂查询场景下,现有稠密检索系统微调大型查询嵌入模型成本高昂的问题。现有方法直接改进嵌入模型,但计算资源消耗大,内存需求高,操作复杂,难以在实际应用中推广。尤其是在用户使用长指令或任务描述进行查询时,查询和文档之间的语义差距进一步加剧了这一问题。

核心思路:论文的核心思路是借鉴大型语言模型的预训练和微调思想,通过自监督对齐和监督适应两个阶段,训练一个高效的检索适配器。该适配器能够将复杂的查询表示映射到与简单文档表示对齐的空间,从而在不重新索引文档的情况下,提升检索性能。

技术框架:ERA框架包含两个主要阶段:自监督对齐和监督适应。在自监督对齐阶段,利用对比学习等方法,将大型查询嵌入器和轻量级文档嵌入器的嵌入空间对齐。在监督适应阶段,使用少量标注数据,微调查询侧的适配器,使其更好地适应特定任务的查询意图。整个框架无需修改或重新训练文档嵌入器,从而避免了重新索引语料库的开销。

关键创新:ERA的关键创新在于提出了一个高效的检索适配器训练框架,该框架能够在低标签环境下,有效地弥合查询和文档之间的语义差距。与直接微调大型嵌入模型相比,ERA的计算成本更低,内存需求更小,操作更简单。此外,ERA还能够灵活地结合不同的查询和文档嵌入器,从而充分利用现有资源。

关键设计:在自监督对齐阶段,可以使用对比损失函数,例如InfoNCE,来最大化正样本对的相似度,同时最小化负样本对的相似度。在监督适应阶段,可以使用交叉熵损失函数,来优化查询侧适配器的参数。适配器的网络结构可以采用简单的线性层或更复杂的Transformer结构。论文中可能还涉及了负样本选择策略、学习率调整策略等技术细节,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

在MAIR基准测试中,ERA在低标签设置下表现出色,超越了依赖大量标注数据的其他方法。实验结果表明,ERA能够有效地结合更强的查询嵌入器和更弱的文档嵌入器,在多个领域实现了检索性能的显著提升。具体的性能提升幅度未知,但摘要中明确指出ERA优于依赖大量标注数据的方法。

🎯 应用场景

ERA框架可应用于各种需要处理复杂查询的检索场景,例如问答系统、信息检索、推荐系统等。该方法尤其适用于资源受限的环境,例如移动设备或边缘计算平台。通过高效地利用预训练的嵌入模型和少量标注数据,ERA能够显著提升检索性能,并降低部署成本,具有广泛的应用前景。

📄 摘要(原文)

Dense retrieval systems increasingly need to handle complex queries. In many realistic settings, users express intent through long instructions or task-specific descriptions, while target documents remain relatively simple and static. This asymmetry creates a retrieval mismatch: understanding queries may require strong reasoning and instruction-following, whereas efficient document indexing favors lightweight encoders. Existing retrieval systems often address this mismatch by directly improving the embedding model, but fine-tuning large embedding models to better follow such instructions is computationally expensive, memory-intensive, and operationally burdensome. To address this challenge, we propose Efficient Retrieval Adapter (ERA), a label-efficient framework that trains retrieval adapters in two stages: self-supervised alignment and supervised adaptation. Inspired by the pre-training and supervised fine-tuning stages of LLMs, ERA first aligns the embedding spaces of a large query embedder and a lightweight document embedder, and then uses limited labeled data to adapt the query-side representation, bridging both the representation gap between embedding models and the semantic gap between complex queries and simple documents without re-indexing the corpus. Experiments on the MAIR benchmark, spanning 126 retrieval tasks across 6 domains, show that ERA improves retrieval in low-label settings, outperforms methods that rely on larger amounts of labeled data, and effectively combines stronger query embedders with weaker document embedders across domains.