Retrv-R1: A Reasoning-Driven MLLM Framework for Universal and Efficient Multimodal Retrieval

作者: Lanyun Zhu, Deyi Ji, Tianrun Chen, Haiyang Wu, Shiqi Wang

分类: cs.CV

发布日期: 2025-10-03 (更新: 2025-10-25)

备注: NeurIPS 2025

💡 一句话要点

提出Retrv-R1，一种基于推理驱动的多模态大语言模型框架，用于通用且高效的多模态检索。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多模态检索 大语言模型 强化学习 信息压缩 推理驱动 课程学习 视觉语言模型

📋 核心要点

现有方法在多模态检索中面临计算成本高和强化学习训练不稳定等挑战，限制了性能提升。
Retrv-R1通过信息压缩模块和细节检查机制，有效降低token消耗，并结合检索定制的CoT数据集和课程奖励强化学习，优化训练过程。
实验结果表明，Retrv-R1在多个基准测试中达到了最先进的性能，同时保持了高效率和良好的泛化能力。

📝 摘要（中文）

本文介绍Retrv-R1，这是首个R1风格的多模态大语言模型，专为多模态通用检索而设计。它通过采用逐步推理来产生更准确的检索结果，从而实现更高的性能。直接将DeepSeek-R1的方法应用于检索任务是不可行的，主要原因是：（1）推理过程中多个候选对象需要消耗大量token，导致计算成本高昂；（2）直接应用强化学习（RL）训练检索任务时，结果不稳定且效果欠佳。为了解决这些问题，Retrv-R1引入了一个带有细节检查机制的信息压缩模块，通过减少token数量来提高计算效率，同时确保保留具有挑战性的候选对象的关键信息。此外，还提出了一种新的训练范式，包括使用检索定制的合成CoT数据集进行激活阶段，以实现更有效的优化，然后使用具有新颖课程奖励的强化学习来提高性能和效率。实验表明，Retrv-R1在多个基准和任务中实现了SOTA性能、高效率和强大的泛化能力。

🔬 方法详解

问题定义：论文旨在解决多模态通用检索任务中，现有方法计算成本高昂和强化学习训练不稳定导致性能受限的问题。直接将DeepSeek-R1等大型语言模型的推理能力应用于检索任务时，由于需要处理大量候选对象，token消耗巨大，计算资源需求高，难以实际应用。此外，直接使用强化学习训练检索任务时，容易出现训练不稳定和结果欠佳的情况，难以达到理想的检索效果。

核心思路：Retrv-R1的核心思路是，在保证检索性能的前提下，通过信息压缩和优化的训练策略来降低计算成本并提高训练稳定性。具体来说，首先通过信息压缩模块减少token数量，降低计算负担；然后，设计检索定制的CoT数据集和课程奖励强化学习方法，提高训练效率和效果。

技术框架：Retrv-R1的整体框架包含以下几个主要模块：1) 信息压缩模块：用于减少输入token的数量，降低计算成本。该模块包含细节检查机制，确保关键信息不丢失。2) 检索定制的CoT数据集：用于激活阶段的训练，提供更有效的优化方向。3) 课程奖励强化学习：用于进一步提升性能和效率，通过逐步增加训练难度，提高模型的泛化能力。

关键创新：Retrv-R1的关键创新在于以下几个方面：1) 针对检索任务设计的信息压缩模块，能够在降低计算成本的同时，保留关键信息。2) 提出了检索定制的CoT数据集，能够更有效地引导模型进行优化。3) 设计了课程奖励强化学习方法，能够提高训练的稳定性和效率。

关键设计：信息压缩模块采用了一种细节检查机制，用于识别和保留重要的信息。检索定制的CoT数据集包含针对检索任务设计的推理链，能够帮助模型更好地理解检索意图。课程奖励强化学习方法通过逐步增加训练难度，提高模型的泛化能力。具体的奖励函数设计和网络结构细节在论文中有详细描述。

📊 实验亮点

Retrv-R1在多个多模态检索基准测试中取得了SOTA性能，证明了其有效性和优越性。通过信息压缩模块和优化的训练策略，Retrv-R1在保证检索性能的同时，显著降低了计算成本，提高了训练效率。实验结果表明，Retrv-R1具有强大的泛化能力，能够适应不同的检索任务和数据集。

🎯 应用场景

Retrv-R1具有广泛的应用前景，可应用于图像、视频、文本等多种模态数据的检索任务。例如，在电商领域，可以用于商品图像的相似度搜索；在视频平台，可以用于视频内容的检索和推荐；在知识库问答系统中，可以用于检索相关的知识条目。该研究的成果有助于提升多模态检索的效率和准确性，为用户提供更好的检索体验。

📄 摘要（原文）

The success of DeepSeek-R1 demonstrates the immense potential of using reinforcement learning (RL) to enhance LLMs' reasoning capabilities. This paper introduces Retrv-R1, the first R1-style MLLM specifically designed for multimodal universal retrieval, achieving higher performance by employing step-by-step reasoning to produce more accurate retrieval results. We find that directly applying the methods of DeepSeek-R1 to retrieval tasks is not feasible, mainly due to (1) the high computational cost caused by the large token consumption required for multiple candidates with reasoning processes, and (2) the instability and suboptimal results when directly applying RL to train for retrieval tasks. To address these issues, Retrv-R1 introduces an information compression module with a details inspection mechanism, which enhances computational efficiency by reducing the number of tokens while ensuring that critical information for challenging candidates is preserved. Furthermore, a new training paradigm is proposed, including an activation stage using a retrieval-tailored synthetic CoT dataset for more effective optimization, followed by RL with a novel curriculum reward to improve both performance and efficiency. Incorporating these novel designs, Retrv-R1 achieves SOTA performance, high efficiency, and strong generalization ability, as demonstrated by experiments across multiple benchmarks and tasks.

Retrv-R1: A Reasoning-Driven MLLM Framework for Universal and Efficient Multimodal Retrieval

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册