BRIDGE: Multimodal-to-Text Retrieval via Reinforcement-Learned Query Alignment

作者: Mohamed Darwish Mounis, Mohamed Mahmoud, Shaimaa Sedek, Mahmoud Abdalla, Mahmoud SalahEldin Kasem, Abdelrahman Abdallah, Hyun-Soo Kang

分类: cs.IR, cs.CV

发布日期: 2026-04-08

备注: Accepted at CVPR 2026 Workshop GRAIL-V

🔗 代码/项目: GITHUB

💡 一句话要点

提出BRIDGE，通过强化学习对齐多模态查询，提升文本语料库上的跨模态检索性能。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 查询对齐 强化学习 文本检索 跨模态学习

📋 核心要点

现有方法在处理多模态到文本的检索任务时，由于原始查询包含噪声和多重意图，导致检索性能不佳。
BRIDGE通过FORGE提炼查询，使用强化学习生成检索优化的搜索字符串，并用LENS进行推理增强的检索。
实验表明，BRIDGE在MM-BRIGHT数据集上超越了现有最佳多模态检索模型，并验证了查询对齐的重要性。

📝 摘要（中文）

多模态检索系统在针对纯文本语料库解析图像-文本查询时面临挑战：最佳的视觉-语言编码器在MM-BRIGHT数据集上仅达到27.6的nDCG@10，逊于强大的纯文本检索器。我们认为瓶颈不在于检索器，而在于查询本身——原始多模态查询将视觉描述、会话噪声和检索意图混杂在一起，系统性地降低了嵌入相似性。我们提出了BRIDGE，一个双组件系统，无需多模态编码器即可解决此不匹配问题。FORGE（Focused Retrieval Query Generator）是一个通过强化学习训练的查询对齐模型，将嘈杂的多模态查询提炼成紧凑的、检索优化的搜索字符串。LENS（Language-Enhanced Neural Search）是一个推理增强的密集检索器，在推理密集型检索数据上进行微调，以处理FORGE生成的富含意图的查询。在MM-BRIGHT（2,803个查询，29个领域）上评估，BRIDGE达到了29.7的nDCG@10，超过了包括Nomic-Vision（27.6）在内的所有多模态编码器基线。当FORGE作为即插即用对齐器应用于Nomic-Vision之上时，组合系统达到了33.3的nDCG@10——超过了最佳的纯文本检索器（32.2）——表明查询对齐是多模态到文本检索的关键瓶颈。

🔬 方法详解

问题定义：论文旨在解决多模态到文本检索任务中，由于原始多模态查询包含视觉描述、会话噪声和检索意图等多种信息，导致检索性能下降的问题。现有方法通常直接使用视觉-语言编码器处理原始查询，忽略了查询中噪声和意图混杂对检索效果的影响。

核心思路：论文的核心思路是将原始多模态查询进行对齐，提炼出更简洁、更符合检索意图的查询。通过强化学习训练查询生成器，使其能够从原始查询中提取关键信息，生成检索优化的搜索字符串。同时，使用推理增强的检索器来处理这些富含意图的查询。

技术框架：BRIDGE系统包含两个主要组件：FORGE（Focused Retrieval Query Generator）和LENS（Language-Enhanced Neural Search）。FORGE负责将原始多模态查询转换为检索优化的查询，LENS负责使用这些查询在文本语料库中进行检索。FORGE使用强化学习进行训练，LENS则在推理密集型检索数据上进行微调。整体流程是：输入多模态查询 -> FORGE生成对齐后的查询 -> LENS使用对齐后的查询进行检索 -> 输出检索结果。

关键创新：论文的关键创新在于提出了使用强化学习进行查询对齐的方法，将原始多模态查询转换为更适合检索的格式。与现有方法直接使用视觉-语言编码器处理原始查询不同，BRIDGE通过FORGE显式地对查询进行优化，从而提高了检索性能。此外，LENS的推理增强设计也使其能够更好地处理FORGE生成的富含意图的查询。

关键设计：FORGE使用强化学习进行训练，奖励函数的设计至关重要。论文中使用的奖励函数旨在鼓励生成更简洁、更符合检索意图的查询。LENS则使用了推理增强的网络结构，例如使用Transformer模型来捕捉查询和文档之间的复杂关系。具体的参数设置和网络结构细节在论文中有详细描述，但此处未提供。

🖼️ 关键图片

📊 实验亮点

BRIDGE在MM-BRIGHT数据集上取得了显著的性能提升，nDCG@10达到了29.7，超过了所有多模态编码器基线，包括Nomic-Vision（27.6）。更重要的是，当FORGE作为即插即用对齐器应用于Nomic-Vision之上时，组合系统达到了33.3的nDCG@10，超过了最佳的纯文本检索器（32.2），证明了查询对齐在多模态到文本检索中的重要性。

🎯 应用场景

该研究成果可应用于智能客服、图像搜索、问答系统等领域。例如，在智能客服中，用户可以通过上传图片和文字描述来表达问题，系统可以使用BRIDGE将多模态查询转换为检索查询，从而更准确地找到相关答案。该技术还可以用于改进图像搜索引擎，使用户可以通过文字描述更精确地搜索图像。

📄 摘要（原文）

Multimodal retrieval systems struggle to resolve image-text queries against text-only corpora: the best vision-language encoder achieves only 27.6 nDCG@10 on MM-BRIGHT, underperforming strong text-only retrievers. We argue the bottleneck is not the retriever but the query -- raw multimodal queries entangle visual descriptions, conversational noise, and retrieval intent in ways that systematically degrade embedding similarity. We present \textbf{BRIDGE}, a two-component system that resolves this mismatch without multimodal encoders. \textbf{FORGE} (\textbf{F}ocused Retrieval Query Generato\textbf{r}) is a query alignment model trained via reinforcement learning, which distills noisy multimodal queries into compact, retrieval-optimized search strings. \textbf{LENS} (\textbf{L}anguage-\textbf{E}nhanced \textbf{N}eural \textbf{S}earch) is a reasoning-enhanced dense retriever fine-tuned on reasoning-intensive retrieval data to handle the intent-rich queries FORGE produces. Evaluated on MM-BRIGHT (2,803 queries, 29 domains), BRIDGE achieves \textbf{29.7} nDCG@10, surpassing all multimodal encoder baselines including Nomic-Vision (27.6). When FORGE is applied as a plug-and-play aligner on top of Nomic-Vision, the combined system reaches \textbf{33.3} nDCG@10 -- exceeding the best text-only retriever (32.2) -- demonstrating that \textit{query alignment} is the key bottleneck in multimodal-to-text retrieval. https://github.com/mm-bright/multimodal-reasoning-retrieval

BRIDGE: Multimodal-to-Text Retrieval via Reinforcement-Learned Query Alignment

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理