Learning to Route Queries Across Knowledge Bases for Step-wise Retrieval-Augmented Reasoning

📄 arXiv: 2505.22095v1 📥 PDF

作者: Chunyi Peng, Zhipeng Xu, Zhenghao Liu, Yishan Li, Yukun Yan, Shuo Wang, Zhiyuan Liu, Yu Gu, Minghe Yu, Ge Yu, Maosong Sun

分类: cs.CL

发布日期: 2025-05-28


💡 一句话要点

提出R1-Router,通过学习跨知识库查询路由实现多模态检索增强推理。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态检索增强生成 知识库路由 强化学习 开放域问答 大型语言模型

📋 核心要点

  1. 现有MRAG方法采用静态检索流程,忽略了MLLM动态利用不同知识库进行推理的能力。
  2. R1-Router学习根据推理状态动态决定何时何地检索知识,并生成中间查询路由到合适的知识库。
  3. Step-GRPO强化学习算法优化MLLM的推理行为,实验表明R1-Router性能优于基线模型7%以上。

📝 摘要(中文)

多模态检索增强生成(MRAG)通过在生成过程中融入外部知识,在缓解多模态大型语言模型(MLLM)的幻觉问题方面展现了潜力。现有的MRAG方法通常采用静态检索流程,从多个知识库(KB)中获取相关信息,然后进行细化。然而,这些方法忽略了MLLM的推理和规划能力,无法动态地决定在推理过程中如何与不同的KB交互。为了解决这个限制,我们提出了R1-Router,一种新型的MRAG框架,它学习根据不断演变的推理状态来决定何时何地检索知识。具体来说,R1-Router可以根据当前的推理步骤生成后续查询,将这些中间查询路由到最合适的KB,并将外部知识整合到连贯的推理轨迹中,以回答原始查询。此外,我们引入了Step-wise Group Relative Policy Optimization (Step-GRPO),一种定制的强化学习算法,它分配特定步骤的奖励来优化MLLM的推理行为。在各种跨多种模态的开放域问答基准上的实验结果表明,R1-Router优于基线模型超过7%。进一步的分析表明,R1-Router可以自适应地有效地利用不同的KB,减少不必要的检索,并提高效率和准确性。

🔬 方法详解

问题定义:现有MRAG方法采用静态检索流程,无法根据推理过程动态选择合适的知识库。这导致了不必要的检索,降低了效率,并且可能无法充分利用不同知识库的优势来提高准确性。因此,需要一种能够根据推理状态动态路由查询到不同知识库的方法。

核心思路:论文的核心思路是让MLLM学习如何根据当前的推理步骤生成后续查询,并将这些查询路由到最合适的知识库。通过这种方式,MLLM可以动态地与不同的知识库交互,从而更有效地利用外部知识来完成推理任务。这种动态路由查询的方法能够减少不必要的检索,提高效率,并提高准确性。

技术框架:R1-Router框架包含以下几个主要模块:1) 查询生成模块:根据当前的推理步骤生成后续查询。2) 知识库路由模块:将生成的查询路由到最合适的知识库。3) 知识整合模块:将从知识库检索到的外部知识整合到当前的推理轨迹中。4) 推理模块:利用整合后的知识进行推理,并生成最终答案。整个流程是一个迭代的过程,MLLM根据当前的推理状态不断生成查询、路由查询、检索知识和整合知识,直到得到最终答案。

关键创新:最重要的技术创新点在于动态查询路由机制。与现有方法采用的静态检索流程不同,R1-Router能够根据当前的推理状态动态地决定何时何地检索知识,并将查询路由到最合适的知识库。此外,Step-GRPO算法也是一个重要的创新点,它通过分配特定步骤的奖励来优化MLLM的推理行为。

关键设计:Step-GRPO算法是专门为优化MLLM的推理行为而设计的。它通过分配特定步骤的奖励来鼓励MLLM生成有用的查询,并将查询路由到合适的知识库。具体来说,Step-GRPO算法使用一个奖励函数来评估每个推理步骤的质量,并根据评估结果来调整MLLM的策略。奖励函数的设计需要考虑到多个因素,例如查询的相关性、知识库的适用性和推理的准确性。此外,论文还可能涉及一些关于查询生成模块和知识库路由模块的具体实现细节,例如使用的网络结构、损失函数和训练方法等,但具体细节未知。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,R1-Router在各种开放域问答基准上优于基线模型超过7%。这表明R1-Router能够有效地利用外部知识来提高推理的准确性。此外,分析表明R1-Router可以自适应地利用不同的知识库,减少不必要的检索,并提高效率。

🎯 应用场景

该研究成果可应用于各种需要利用外部知识进行推理的场景,例如开放域问答、对话系统、智能助手等。通过动态地与不同的知识库交互,R1-Router可以更有效地利用外部知识来提高推理的准确性和效率,从而提升用户体验。

📄 摘要(原文)

Multimodal Retrieval-Augmented Generation (MRAG) has shown promise in mitigating hallucinations in Multimodal Large Language Models (MLLMs) by incorporating external knowledge during generation. Existing MRAG methods typically adopt a static retrieval pipeline that fetches relevant information from multiple Knowledge Bases (KBs), followed by a refinement step. However, these approaches overlook the reasoning and planning capabilities of MLLMs to dynamically determine how to interact with different KBs during the reasoning process. To address this limitation, we propose R1-Router, a novel MRAG framework that learns to decide when and where to retrieve knowledge based on the evolving reasoning state. Specifically, R1-Router can generate follow-up queries according to the current reasoning step, routing these intermediate queries to the most suitable KB, and integrating external knowledge into a coherent reasoning trajectory to answer the original query. Furthermore, we introduce Step-wise Group Relative Policy Optimization (Step-GRPO), a tailored reinforcement learning algorithm that assigns step-specific rewards to optimize the reasoning behavior of MLLMs. Experimental results on various open-domain QA benchmarks across multiple modalities demonstrate that R1-Router outperforms baseline models by over 7%. Further analysis shows that R1-Router can adaptively and effectively leverage diverse KBs, reducing unnecessary retrievals and improving both efficiency and accuracy.