Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts

作者: Quanyu Long, Jianda Chen, Zhengyuan Liu, Nancy F. Chen, Wenya Wang, Sinno Jialin Pan

分类: cs.CL

发布日期: 2025-04-15

备注: 19 pages, 8 figures

💡 一句话要点

提出基于强化学习的组合式检索框架，用于构建信息丰富的上下文。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 组合式检索 强化学习 马尔可夫决策过程 检索增强 大型语言模型 序列检索 程序生成

📋 核心要点

现有检索增强框架难以处理需要组合多个信息源的复杂任务，缺乏对信息源之间依赖关系的建模。
提出一种三编码器序列检索器，将组合式检索建模为马尔可夫决策过程，显式学习检索步骤之间的依赖关系。
实验结果表明，该方法显著优于现有基线，证明了显式建模信息源依赖关系对于组合式检索的重要性。

📝 摘要（中文）

大型语言模型（LLMs）在众多任务中展现了卓越的能力，但它们通常依赖外部上下文来处理复杂任务。传统的检索增强框架侧重于单次选择排名靠前的文档，而许多实际场景需要组合式检索，即以协调的方式组合多个来源。本文提出了一种三编码器序列检索器，将此过程建模为马尔可夫决策过程（MDP），将检索一组元素的概率分解为一系列条件概率，并允许每个检索步骤都以先前选择的示例为条件。我们分两个阶段训练检索器：首先，我们高效地构建监督序列数据以进行初始策略训练；然后，我们使用基于生成程序结构对应关系的奖励来优化策略，使其与LLM的偏好对齐。实验结果表明，我们的方法始终且显著地优于基线，突显了显式建模示例间依赖关系的重要性。这些发现突出了组合式检索在需要多个证据或示例的任务中的潜力。

🔬 方法详解

问题定义：现有检索增强框架通常采用单次检索策略，即一次性选择排名最高的若干文档。然而，在许多实际应用场景中，例如程序生成、复杂问题解答等，需要从多个来源检索信息，并将这些信息组合起来才能完成任务。现有方法忽略了不同信息源之间的依赖关系，导致检索效果不佳。

核心思路：本文的核心思路是将组合式检索过程建模为一个马尔可夫决策过程（MDP）。通过将检索过程分解为一系列连续的步骤，并在每个步骤中考虑之前检索到的信息，从而显式地建模不同信息源之间的依赖关系。这种方法允许检索器根据已有的上下文动态地调整检索策略，从而更有效地找到所需的信息。

技术框架：该方法采用一个三编码器序列检索器。整体框架包含以下几个主要模块：1) 查询编码器：将用户查询编码成向量表示。2) 文档编码器：将候选文档编码成向量表示。3) 状态编码器：将当前已检索到的文档集合编码成向量表示，作为当前MDP的状态。检索过程是一个序列决策过程，每个步骤选择一个文档加入到已检索文档集合中。检索器通过最大化累积奖励来学习最优的检索策略。

关键创新：该方法最重要的创新点在于将组合式检索建模为马尔可夫决策过程，并使用强化学习来训练检索器。与传统的单次检索方法相比，该方法能够显式地建模不同信息源之间的依赖关系，从而更有效地找到所需的信息。此外，该方法还提出了一种两阶段训练策略，首先使用监督数据进行初始策略训练，然后使用强化学习来优化策略，使其与LLM的偏好对齐。

关键设计：该方法使用三编码器结构，分别编码查询、文档和状态。状态编码器将已检索文档集合编码成向量表示，作为当前MDP的状态。奖励函数的设计至关重要，本文使用基于生成程序结构对应关系的奖励来优化策略，使其与LLM的偏好对齐。具体来说，奖励函数衡量了LLM基于检索到的文档生成的程序与目标程序之间的结构相似度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，该方法在组合式检索任务中显著优于现有基线。具体来说，该方法在程序生成任务中取得了显著的性能提升，表明其能够有效地检索和组合多个代码片段，从而生成更准确、更完整的程序。与现有基线相比，该方法在检索准确率和生成程序质量方面均有显著提升。

🎯 应用场景

该研究成果可应用于需要组合多个信息源的复杂任务，例如代码生成、复杂问题解答、科学研究等。通过更有效地检索和组合相关信息，可以提高LLM在这些任务中的性能，并为用户提供更准确、更全面的答案。未来，该方法可以扩展到其他领域，例如多模态信息检索、跨语言信息检索等。

📄 摘要（原文）

Large Language Models (LLMs) have demonstrated remarkable capabilities across numerous tasks, yet they often rely on external context to handle complex tasks. While retrieval-augmented frameworks traditionally focus on selecting top-ranked documents in a single pass, many real-world scenarios demand compositional retrieval, where multiple sources must be combined in a coordinated manner. In this work, we propose a tri-encoder sequential retriever that models this process as a Markov Decision Process (MDP), decomposing the probability of retrieving a set of elements into a sequence of conditional probabilities and allowing each retrieval step to be conditioned on previously selected examples. We train the retriever in two stages: first, we efficiently construct supervised sequential data for initial policy training; we then refine the policy to align with the LLM's preferences using a reward grounded in the structural correspondence of generated programs. Experimental results show that our method consistently and significantly outperforms baselines, underscoring the importance of explicitly modeling inter-example dependencies. These findings highlight the potential of compositional retrieval for tasks requiring multiple pieces of evidence or examples.

Reinforcing Compositional Retrieval: Retrieving Step-by-Step for Composing Informative Contexts

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理