Mixture-of-Retrieval Experts for Reasoning-Guided Multimodal Knowledge Exploitation

📄 arXiv: 2505.22095 📥 PDF

作者: Chunyi Peng, Zhipeng Xu, Zhenghao Liu, Yishan Li, Yukun Yan, Shuo Wang, Yu Gu, Minghe Yu, Ge Yu, Maosong Sun

分类: cs.CL

发布日期: 2026-04-07


💡 一句话要点

提出MoRE框架,通过混合检索专家解决多模态大语言模型中的幻觉问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多模态学习 检索增强生成 混合专家模型 开放域问答 知识库 大语言模型 专家协作 动态检索

📋 核心要点

  1. 现有MRAG方法检索策略固定,无法根据模型推理状态动态选择合适的检索专家。
  2. MoRE框架通过学习动态选择检索专家,使MLLM能根据推理状态与不同专家协同交互。
  3. Step-GRPO训练策略鼓励MLLM与多专家交互,并综合细粒度奖励,提升专家协作能力。

📝 摘要(中文)

多模态检索增强生成(MRAG)通过整合外部知识,在缓解多模态大语言模型(MLLM)中的幻觉问题方面展现出潜力。然而,现有方法通常遵循固定的检索模式,模仿固定的检索轨迹,未能基于模型的知识需求或不断演进的推理状态,充分利用不同检索专家的知识。为了克服这一局限性,我们提出了混合检索专家(MoRE),这是一个新颖的框架,使MLLM能够与不同的检索专家协同交互,从而更有效地利用知识。具体而言,MoRE学习动态地确定与哪个专家交互,这取决于不断演进的推理状态。为了有效地训练这种能力,我们提出了逐步分组相对策略优化(Step-GRPO),它超越了基于稀疏结果的监督,鼓励MLLM与多个检索专家交互并综合细粒度的奖励,从而教会MLLM在回答给定查询时充分协调所有专家。在各种开放域问答基准上的实验结果表明了MoRE的有效性,与有竞争力的基线相比,平均性能提升超过7%。值得注意的是,MoRE表现出强大的适应性,通过动态协调异构专家来精确定位相关信息,验证了其强大的、推理驱动的专家协作能力。

🔬 方法详解

问题定义:现有的多模态检索增强生成(MRAG)方法在利用外部知识缓解多模态大语言模型(MLLM)的幻觉问题时,通常采用固定的检索策略,无法根据模型自身的知识需求和推理状态的变化,动态地选择和利用不同的检索专家。这种静态的检索方式限制了知识的充分利用,导致模型在复杂推理场景下表现不佳。

核心思路:MoRE的核心思路是引入一个混合检索专家的框架,允许MLLM根据其当前的推理状态,动态地选择与哪个检索专家进行交互。通过这种动态选择机制,模型可以更好地利用不同专家的知识,从而提高知识利用的效率和准确性。这种设计旨在模拟人类在解决问题时,会根据问题的不同方面咨询不同领域专家的行为。

技术框架:MoRE框架主要包含以下几个模块:1) 推理状态编码器:用于编码MLLM当前的推理状态,为专家选择提供依据。2) 专家选择器:根据推理状态,动态地选择合适的检索专家。3) 检索专家:一组不同的检索模型,每个模型专注于不同类型的知识或信息。4) 知识融合模块:将从不同专家检索到的知识进行融合,并输入到MLLM中进行推理。整个流程是,MLLM首先进行初步推理,然后推理状态编码器提取推理状态,专家选择器根据状态选择专家,被选中的专家进行知识检索,最后知识融合模块将检索结果整合到MLLM的输入中,进行最终的答案生成。

关键创新:MoRE的关键创新在于其动态的专家选择机制和Step-GRPO训练策略。动态专家选择机制允许模型根据推理状态自适应地选择专家,而Step-GRPO训练策略则通过鼓励模型与多个专家交互并综合细粒度奖励,提高了专家协作的效率和效果。与现有方法相比,MoRE不再局限于固定的检索轨迹,而是能够根据模型的实际需求,灵活地利用不同的知识来源。

关键设计:Step-GRPO训练策略是MoRE的关键设计之一。该策略通过逐步分组相对策略优化,鼓励MLLM与多个检索专家进行交互,并根据交互结果生成细粒度的奖励信号。具体来说,Step-GRPO将训练过程分解为多个步骤,在每个步骤中,模型都会与不同的专家进行交互,并根据交互结果获得奖励。这些奖励信号不仅考虑了最终的答案是否正确,还考虑了模型在每个步骤中与专家交互的质量。通过这种方式,Step-GRPO可以更有效地训练模型,使其能够更好地协调不同的检索专家。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,MoRE在多个开放域问答基准上取得了显著的性能提升,平均性能增益超过7%,超越了现有的竞争基线。MoRE能够动态协调异构专家,精确定位相关信息,验证了其强大的推理驱动的专家协作能力。这些结果表明,MoRE是一种有效的知识利用方法,可以显著提高MLLM的性能。

🎯 应用场景

MoRE框架具有广泛的应用前景,可应用于开放域问答、智能对话系统、多模态信息检索等领域。通过动态协调不同的知识来源,MoRE可以提高模型在复杂推理场景下的表现,减少幻觉,并提供更准确、可靠的答案。未来,MoRE还可以扩展到更多的领域,例如医疗诊断、金融分析等,为各行各业提供更智能化的解决方案。

📄 摘要(原文)

Multimodal Retrieval-Augmented Generation (MRAG) has shown promise in mitigating hallucinations in Multimodal Large Language Models (MLLMs) by incorporating external knowledge. However, existing methods typically adhere to rigid retrieval paradigms by mimicking fixed retrieval trajectories and thus fail to fully exploit the knowledge of different retrieval experts through dynamic interaction based on the model's knowledge needs or evolving reasoning states. To overcome this limitation, we introduce Mixture-of-Retrieval Experts (MoRE), a novel framework that enables MLLMs to collaboratively interact with diverse retrieval experts for more effective knowledge exploitation. Specifically, MoRE learns to dynamically determine which expert to engage with, conditioned on the evolving reasoning state. To effectively train this capability, we propose Stepwise Group Relative Policy Optimization (Step-GRPO), which goes beyond sparse outcome-based supervision by encouraging MLLMs to interact with multiple retrieval experts and synthesize fine-grained rewards, thereby teaching the MLLM to fully coordinate all experts when answering a given query. Experimental results on diverse open-domain QA benchmarks demonstrate the effectiveness of MoRE, achieving average performance gains of over 7% compared to competitive baselines. Notably, MoRE exhibits strong adaptability by dynamically coordinating heterogeneous experts to precisely locate relevant information, validating its capability for robust, reasoning-driven expert collaboration. All codes and data are released onthis https URL.