BRIDGE: Multimodal-to-Text Retrieval via Reinforcement-Learned Query Alignment

📄 arXiv: 2604.07201v1 📥 PDF

作者: Mohamed Darwish Mounis, Mohamed Mahmoud, Shaimaa Sedek, Mahmoud Abdalla, Mahmoud SalahEldin Kasem, Abdelrahman Abdallah, Hyun-Soo Kang

分类: cs.IR, cs.CV

发布日期: 2026-04-08

备注: Accepted at CVPR 2026 Workshop GRAIL-V

🔗 代码/项目: GITHUB


💡 一句话要点

提出BRIDGE,通过强化学习对齐多模态查询,提升文本语料库上的跨模态检索性能。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 查询对齐 强化学习 文本检索 跨模态学习

📋 核心要点

  1. 现有方法在处理多模态到文本的检索任务时,由于原始查询包含噪声和多重意图,导致检索性能不佳。
  2. BRIDGE通过FORGE提炼查询,使用强化学习生成检索优化的搜索字符串,并用LENS进行推理增强的检索。
  3. 实验表明,BRIDGE在MM-BRIGHT数据集上超越了现有最佳多模态检索模型,并验证了查询对齐的重要性。

📝 摘要(中文)

多模态检索系统在针对纯文本语料库解析图像-文本查询时面临挑战:最佳的视觉-语言编码器在MM-BRIGHT数据集上仅达到27.6的nDCG@10,逊于强大的纯文本检索器。我们认为瓶颈不在于检索器,而在于查询本身——原始多模态查询将视觉描述、会话噪声和检索意图混杂在一起,系统性地降低了嵌入相似性。我们提出了BRIDGE,一个双组件系统,无需多模态编码器即可解决此不匹配问题。FORGE(Focused Retrieval Query Generator)是一个通过强化学习训练的查询对齐模型,将嘈杂的多模态查询提炼成紧凑的、检索优化的搜索字符串。LENS(Language-Enhanced Neural Search)是一个推理增强的密集检索器,在推理密集型检索数据上进行微调,以处理FORGE生成的富含意图的查询。在MM-BRIGHT(2,803个查询,29个领域)上评估,BRIDGE达到了29.7的nDCG@10,超过了包括Nomic-Vision(27.6)在内的所有多模态编码器基线。当FORGE作为即插即用对齐器应用于Nomic-Vision之上时,组合系统达到了33.3的nDCG@10——超过了最佳的纯文本检索器(32.2)——表明查询对齐是多模态到文本检索的关键瓶颈。

🔬 方法详解

问题定义:论文旨在解决多模态到文本检索任务中,由于原始多模态查询包含视觉描述、会话噪声和检索意图等多种信息,导致检索性能下降的问题。现有方法通常直接使用视觉-语言编码器处理原始查询,忽略了查询中噪声和意图混杂对检索效果的影响。

核心思路:论文的核心思路是将原始多模态查询进行对齐,提炼出更简洁、更符合检索意图的查询。通过强化学习训练查询生成器,使其能够从原始查询中提取关键信息,生成检索优化的搜索字符串。同时,使用推理增强的检索器来处理这些富含意图的查询。

技术框架:BRIDGE系统包含两个主要组件:FORGE(Focused Retrieval Query Generator)和LENS(Language-Enhanced Neural Search)。FORGE负责将原始多模态查询转换为检索优化的查询,LENS负责使用这些查询在文本语料库中进行检索。FORGE使用强化学习进行训练,LENS则在推理密集型检索数据上进行微调。整体流程是:输入多模态查询 -> FORGE生成对齐后的查询 -> LENS使用对齐后的查询进行检索 -> 输出检索结果。

关键创新:论文的关键创新在于提出了使用强化学习进行查询对齐的方法,将原始多模态查询转换为更适合检索的格式。与现有方法直接使用视觉-语言编码器处理原始查询不同,BRIDGE通过FORGE显式地对查询进行优化,从而提高了检索性能。此外,LENS的推理增强设计也使其能够更好地处理FORGE生成的富含意图的查询。

关键设计:FORGE使用强化学习进行训练,奖励函数的设计至关重要。论文中使用的奖励函数旨在鼓励生成更简洁、更符合检索意图的查询。LENS则使用了推理增强的网络结构,例如使用Transformer模型来捕捉查询和文档之间的复杂关系。具体的参数设置和网络结构细节在论文中有详细描述,但此处未提供。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BRIDGE在MM-BRIGHT数据集上取得了显著的性能提升,nDCG@10达到了29.7,超过了所有多模态编码器基线,包括Nomic-Vision(27.6)。更重要的是,当FORGE作为即插即用对齐器应用于Nomic-Vision之上时,组合系统达到了33.3的nDCG@10,超过了最佳的纯文本检索器(32.2),证明了查询对齐在多模态到文本检索中的重要性。

🎯 应用场景

该研究成果可应用于智能客服、图像搜索、问答系统等领域。例如,在智能客服中,用户可以通过上传图片和文字描述来表达问题,系统可以使用BRIDGE将多模态查询转换为检索查询,从而更准确地找到相关答案。该技术还可以用于改进图像搜索引擎,使用户可以通过文字描述更精确地搜索图像。

📄 摘要(原文)

Multimodal retrieval systems struggle to resolve image-text queries against text-only corpora: the best vision-language encoder achieves only 27.6 nDCG@10 on MM-BRIGHT, underperforming strong text-only retrievers. We argue the bottleneck is not the retriever but the query -- raw multimodal queries entangle visual descriptions, conversational noise, and retrieval intent in ways that systematically degrade embedding similarity. We present \textbf{BRIDGE}, a two-component system that resolves this mismatch without multimodal encoders. \textbf{FORGE} (\textbf{F}ocused Retrieval Query Generato\textbf{r}) is a query alignment model trained via reinforcement learning, which distills noisy multimodal queries into compact, retrieval-optimized search strings. \textbf{LENS} (\textbf{L}anguage-\textbf{E}nhanced \textbf{N}eural \textbf{S}earch) is a reasoning-enhanced dense retriever fine-tuned on reasoning-intensive retrieval data to handle the intent-rich queries FORGE produces. Evaluated on MM-BRIGHT (2,803 queries, 29 domains), BRIDGE achieves \textbf{29.7} nDCG@10, surpassing all multimodal encoder baselines including Nomic-Vision (27.6). When FORGE is applied as a plug-and-play aligner on top of Nomic-Vision, the combined system reaches \textbf{33.3} nDCG@10 -- exceeding the best text-only retriever (32.2) -- demonstrating that \textit{query alignment} is the key bottleneck in multimodal-to-text retrieval. https://github.com/mm-bright/multimodal-reasoning-retrieval