SLQ: Bridging Modalities via Shared Latent Queries for Retrieval with Frozen MLLMs

📄 arXiv: 2604.13710v1 📥 PDF

作者: Haoran Lou, Ziyan Liu, Chunxiao Fan, Yuexin Wu, Yue Ming

分类: cs.CV

发布日期: 2026-04-15


💡 一句话要点

提出SLQ:通过共享隐空间查询桥接模态,实现冻结MLLM的检索

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 大型语言模型 隐空间查询 知识推理 跨模态学习

📋 核心要点

  1. 现有MLLM检索方法依赖参数微调,破坏了预训练的语义空间和结构化知识,影响推理能力。
  2. SLQ通过共享隐空间查询,在冻结MLLM参数的前提下,激发预训练表示,实现高效检索。
  3. 实验表明,SLQ在多个数据集上优于全微调和LoRA,尤其在知识感知推理检索基准KARR-Bench上提升显著。

📝 摘要(中文)

多模态大型语言模型(MLLMs)展现出强大的推理能力和世界知识,但将其应用于检索仍然具有挑战性。现有方法依赖于侵入式的参数更新,如全微调和LoRA,这可能会扰乱预训练的语义空间,并损害对推理至关重要的结构化知识。本文认为,调整MLLMs用于检索应侧重于激发预训练的表示,而不是覆盖它们。为此,我们提出了SLQ,一个有效且高效的框架,通过一小组共享隐空间查询将冻结的MLLM适配为检索器。这些查询附加到文本和图像token序列的末尾,利用模型原生的因果注意力作为全局聚合接口,在统一空间中生成紧凑的嵌入,同时保持骨干网络不变。此外,为了更好地评估超越表面模式匹配的检索,我们构建了KARR-Bench,一个专为知识感知推理检索设计的基准。大量实验表明,SLQ在COCO和Flickr30K上优于全微调和LoRA,同时在MMEB上取得了具有竞争力的性能,并在KARR-Bench上产生了显著的收益。结果表明,SLQ保留了预训练的表示,为将MLLMs适配到检索提供了一个有效且高效的框架。

🔬 方法详解

问题定义:论文旨在解决如何有效利用预训练的多模态大型语言模型(MLLMs)进行检索的问题。现有方法如全微调或LoRA等,通过更新模型参数来适应检索任务,但这些方法可能会破坏MLLMs预训练的语义空间和结构化知识,从而影响其推理能力。因此,如何在不改变MLLM本身的情况下,使其能够有效地进行检索是一个关键问题。

核心思路:论文的核心思路是,与其通过参数更新来改变MLLM,不如利用其现有的预训练表示能力。通过引入一组共享的隐空间查询(Shared Latent Queries),将文本和图像信息映射到统一的嵌入空间,从而实现跨模态检索。这种方法避免了对MLLM的直接修改,保留了其预训练的知识和推理能力。

技术框架:SLQ框架主要包含以下几个步骤:1) 将文本和图像分别进行token化处理,得到token序列;2) 在token序列的末尾添加一组共享的隐空间查询token;3) 将带有查询token的序列输入到冻结的MLLM中;4) MLLM利用其因果注意力机制,将查询token作为全局聚合接口,提取文本和图像的特征;5) 提取查询token对应的输出作为文本和图像的嵌入表示,用于后续的检索任务。

关键创新:SLQ的关键创新在于使用共享的隐空间查询作为全局聚合接口,在不修改MLLM参数的情况下,实现了跨模态信息的有效融合和表示。与传统的微调方法相比,SLQ保留了MLLM的预训练知识,避免了语义空间的破坏。此外,SLQ的设计简单高效,易于实现和部署。

关键设计:SLQ的关键设计包括:1) 共享隐空间查询:使用相同的查询token来处理文本和图像,确保嵌入空间的一致性;2) 查询token的位置:将查询token添加到token序列的末尾,使其能够聚合整个序列的信息;3) 冻结MLLM:保持MLLM的参数不变,避免破坏预训练的知识;4) KARR-Bench基准:为了更好地评估知识感知推理检索,论文构建了一个新的基准数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SLQ在COCO和Flickr30K数据集上优于全微调和LoRA等基线方法。在更具挑战性的知识感知推理检索基准KARR-Bench上,SLQ取得了显著的性能提升,表明其能够更好地利用预训练知识进行检索。此外,SLQ在MMEB数据集上取得了具有竞争力的性能,证明了其通用性。

🎯 应用场景

SLQ框架可应用于各种多模态检索场景,例如图像-文本检索、视频-文本检索等。其保留预训练知识的特性,使其在需要知识推理的检索任务中具有优势。该方法还可用于构建更强大的多模态搜索引擎、智能问答系统和内容推荐系统,具有广泛的应用前景。

📄 摘要(原文)

Multimodal Large Language Models (MLLMs) exhibit strong reasoning and world knowledge, yet adapting them for retrieval remains challenging. Existing approaches rely on invasive parameter updates, such as full fine-tuning and LoRA, which may disrupt the pre-trained semantic space and impair the structured knowledge essential for reasoning. In this work, we argue that adapting MLLMs for retrieval should focus on eliciting pre-trained representations rather than overwriting them. To this end, we propose SLQ, an effective and efficient framework that adapts a frozen MLLM into a retriever through a small set of Shared Latent Queries. Appended to the end of both text and image token sequences, these queries leverage the model's native causal attention to serve as global aggregation interfaces, producing compact embeddings in a unified space while keeping the backbone unchanged. Furthermore, to better evaluate retrieval beyond superficial pattern matching, we construct KARR-Bench, a benchmark designed for knowledge-aware reasoning retrieval. Extensive experiments show that SLQ outperforms full fine-tuning and LoRA on COCO and Flickr30K, while achieving competitive performance on MMEB and yielding substantial gains on KARR-Bench. The results demonstrate that SLQ, which preserves pre-trained representations, provides an effective and efficient framework for adapting MLLMs to retrieval.