MMRAG-RFT: Two-stage Reinforcement Fine-tuning for Explainable Multi-modal Retrieval-augmented Generation
作者: Shengwei Zhao, Jingwen Yao, Sitong Wei, Linhai Xu, Yuying Liu, Dong Zhang, Zhiqiang Tian, Shaoyi Du
分类: cs.AI
发布日期: 2025-12-19
备注: This paper was accepted to AAAI2026
💡 一句话要点
提出MMRAG-RFT,通过两阶段强化学习微调实现可解释的多模态检索增强生成。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态检索增强生成 强化学习 可解释性 多模态大语言模型 推理逻辑
📋 核心要点
- 现有MMRAG方法缺乏对检索和生成过程的推理逻辑的解释,导致结果可解释性不足。
- 提出MMRAG-RFT,通过两阶段强化学习微调,提升多模态大语言模型在检索和生成过程中的推理能力。
- 在WebQA和MultimodalQA数据集上取得了SOTA结果,并通过消融实验验证了方法的有效性。
📝 摘要(中文)
多模态检索增强生成(MMRAG)通过整合外部多模态知识来实现高度可信的生成,从而在复杂的多模态场景中表现出令人印象深刻的性能。然而,现有的MMRAG方法未能阐明检索和响应生成背后的推理逻辑,这限制了结果的可解释性。为了解决这个问题,我们提出将强化学习引入多模态检索增强生成,通过两阶段强化微调框架增强多模态大型语言模型的推理能力,以实现可解释的多模态检索增强生成。具体来说,在第一阶段,采用基于规则的强化微调来执行多模态文档的粗粒度逐点排序,有效地过滤掉那些显著不相关的文档。在第二阶段,利用基于推理的强化微调来联合优化细粒度的列表式排序和答案生成,引导多模态大型语言模型在MMRAG过程中输出可解释的推理逻辑。我们的方法在WebQA和MultimodalQA这两个多模态检索增强生成的基准数据集上取得了最先进的结果,并通过全面的消融实验验证了其有效性。
🔬 方法详解
问题定义:现有的多模态检索增强生成模型(MMRAG)在复杂场景下表现出色,但缺乏对检索和生成过程的推理逻辑的解释,导致模型的可解释性较差。用户难以理解模型为何选择特定的检索结果以及如何生成最终答案。
核心思路:论文的核心思路是通过引入强化学习,对MMRAG模型进行微调,使其在检索和生成过程中能够输出可解释的推理逻辑。通过奖励模型选择相关文档和生成合理答案的行为,从而提高模型的可解释性。
技术框架:MMRAG-RFT框架包含两个阶段的强化学习微调:第一阶段是基于规则的强化微调,用于粗粒度地过滤不相关的多模态文档;第二阶段是基于推理的强化微调,用于联合优化细粒度的列表式排序和答案生成。整个框架旨在引导模型输出可解释的推理逻辑。
关键创新:该方法的主要创新在于将强化学习引入到多模态检索增强生成任务中,并设计了两阶段的强化学习微调框架。通过不同的奖励函数,分别优化检索结果的相关性和生成答案的合理性,从而提高模型的可解释性。与现有方法相比,该方法能够显式地学习推理逻辑,并将其融入到检索和生成过程中。
关键设计:第一阶段使用基于规则的奖励函数,例如检索到的文档与问题相关的关键词匹配程度。第二阶段使用基于推理的奖励函数,例如生成答案的流畅度和与检索文档的一致性。具体实现细节包括强化学习算法的选择(例如,Policy Gradient),奖励函数的具体形式,以及多模态大语言模型的选择和微调策略。
🖼️ 关键图片
📊 实验亮点
MMRAG-RFT在WebQA和MultimodalQA两个基准数据集上取得了state-of-the-art的结果。具体性能数据未知,但论文强调通过消融实验验证了各个模块的有效性,证明了该方法在提高多模态检索增强生成的可解释性方面的优势。
🎯 应用场景
该研究成果可应用于需要高可解释性的多模态信息检索和问答系统,例如医疗诊断、金融分析等领域。通过提供可解释的推理过程,可以增强用户对模型预测结果的信任度,并促进人机协作。未来,该方法可以扩展到更复杂的多模态任务中,例如多模态对话生成和多模态摘要生成。
📄 摘要(原文)
Multi-modal Retrieval-Augmented Generation (MMRAG) enables highly credible generation by integrating external multi-modal knowledge, thus demonstrating impressive performance in complex multi-modal scenarios. However, existing MMRAG methods fail to clarify the reasoning logic behind retrieval and response generation, which limits the explainability of the results. To address this gap, we propose to introduce reinforcement learning into multi-modal retrieval-augmented generation, enhancing the reasoning capabilities of multi-modal large language models through a two-stage reinforcement fine-tuning framework to achieve explainable multi-modal retrieval-augmented generation. Specifically, in the first stage, rule-based reinforcement fine-tuning is employed to perform coarse-grained point-wise ranking of multi-modal documents, effectively filtering out those that are significantly irrelevant. In the second stage, reasoning-based reinforcement fine-tuning is utilized to jointly optimize fine-grained list-wise ranking and answer generation, guiding multi-modal large language models to output explainable reasoning logic in the MMRAG process. Our method achieves state-of-the-art results on WebQA and MultimodalQA, two benchmark datasets for multi-modal retrieval-augmented generation, and its effectiveness is validated through comprehensive ablation experiments.