End-to-End Agentic RAG System Training for Traceable Diagnostic Reasoning
作者: Qiaoyu Zheng, Yuze Sun, Chaoyi Wu, Weike Zhao, Pengcheng Qiu, Yongguo Yu, Kun Sun, Yanfeng Wang, Ya Zhang, Weidi Xie
分类: cs.CL, cs.AI, cs.CV
发布日期: 2025-08-21
备注: 35 pages, 5 figures, 3 tables
🔗 代码/项目: GITHUB
💡 一句话要点
提出Deep-DxSearch,一种端到端Agentic RAG系统,用于可追溯的诊断推理。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: Agentic RAG 强化学习 医学诊断 大型语言模型 可追溯推理
📋 核心要点
- 医学LLM诊断受限于知识不足和幻觉,传统RAG方法在知识利用和推理可追溯性方面存在不足。
- Deep-DxSearch将LLM视为Agent,检索语料库作为环境,通过强化学习端到端训练Agentic RAG策略。
- 实验表明,Deep-DxSearch在诊断准确性上显著优于现有方法,尤其是在常见病和罕见病诊断方面。
📝 摘要(中文)
医学大型语言模型在进行精确诊断时,面临知识缺口和幻觉问题。检索和工具增强方法有所帮助,但由于外部知识利用不足和反馈推理可追溯性差,其影响受到限制。为了解决这些挑战,我们引入了Deep-DxSearch,一种Agentic RAG系统,通过强化学习(RL)进行端到端训练,从而实现可控的可追溯的检索增强推理,用于医学诊断。在Deep-DxSearch中,我们首先构建了一个大规模的医学检索语料库,包括患者记录和可靠的医学知识来源,以支持跨诊断场景的检索感知推理。更重要的是,我们将LLM构建为核心代理,并将检索语料库作为其环境,使用针对格式、检索、推理结构和诊断准确性的定制奖励,从而通过RL从大规模数据中演化Agentic RAG策略。实验表明,我们的端到端Agentic RL训练框架在多个数据中心始终优于提示工程和免训练RAG方法。经过训练后,Deep-DxSearch在诊断准确性方面取得了显著提高,在同分布和异分布设置下,超越了GPT-4o、DeepSeek-R1和其他医学专用框架等强大的诊断基线,适用于常见病和罕见病的诊断。此外,对奖励设计和检索语料库组件的消融研究证实了它们的关键作用,突出了我们的方法与传统实现相比的独特性和有效性。最后,案例研究和可解释性分析突出了Deep-DxSearch诊断策略的改进,更深入地了解了其性能提升,并支持临床医生提供更可靠和精确的初步诊断。
🔬 方法详解
问题定义:医学诊断中,大型语言模型(LLM)面临知识不足和产生幻觉的问题,导致诊断准确率不高。现有的检索增强生成(RAG)方法虽然能引入外部知识,但存在外部知识利用不足、推理过程可追溯性差等问题,难以有效提升诊断效果。
核心思路:将LLM视为智能体(Agent),构建一个基于强化学习(RL)的端到端训练框架,使LLM能够自主地进行检索、推理和诊断。通过定制化的奖励函数,引导智能体学习如何有效地利用外部知识,并生成可追溯的推理过程,从而提高诊断准确率。
技术框架:Deep-DxSearch包含以下主要模块:大规模医学检索语料库、LLM Agent、强化学习训练框架。首先构建包含患者记录和医学知识的大规模语料库。然后,将LLM作为Agent,与语料库环境交互,通过检索相关信息进行推理和诊断。最后,利用强化学习算法,根据诊断结果和推理过程,优化Agent的策略。
关键创新:端到端的Agentic RAG训练框架是该论文的核心创新。与传统的RAG方法相比,该框架能够通过强化学习自动优化检索和推理策略,无需人工设计复杂的提示或规则。此外,定制化的奖励函数能够引导Agent学习生成可追溯的推理过程,提高诊断的可解释性。
关键设计:奖励函数的设计是关键。论文中,奖励函数综合考虑了格式、检索质量、推理结构和诊断准确性。例如,对于检索质量,奖励函数会鼓励Agent检索到与诊断相关的关键信息。对于推理结构,奖励函数会鼓励Agent生成清晰、连贯的推理过程。此外,论文还探索了不同的强化学习算法和网络结构,以优化Agent的训练效果。
🖼️ 关键图片
📊 实验亮点
Deep-DxSearch在诊断准确性方面取得了显著提升,超越了GPT-4o、DeepSeek-R1等强大的基线模型。在同分布和异分布设置下,对常见病和罕见病的诊断准确率均有显著提高。消融实验表明,奖励函数的设计和检索语料库的构建对性能至关重要。
🎯 应用场景
该研究成果可应用于临床辅助诊断,帮助医生更准确、高效地进行疾病诊断,尤其是在罕见病和复杂疾病的诊断方面。通过提供可追溯的推理过程,增强诊断结果的可信度,并为医生提供更深入的诊断依据。未来可扩展到其他医疗领域,如药物研发、个性化治疗等。
📄 摘要(原文)
Accurate diagnosis with medical large language models is hindered by knowledge gaps and hallucinations. Retrieval and tool-augmented methods help, but their impact is limited by weak use of external knowledge and poor feedback-reasoning traceability. To address these challenges, We introduce Deep-DxSearch, an agentic RAG system trained end-to-end with reinforcement learning (RL) that enables steer tracebale retrieval-augmented reasoning for medical diagnosis. In Deep-DxSearch, we first construct a large-scale medical retrieval corpus comprising patient records and reliable medical knowledge sources to support retrieval-aware reasoning across diagnostic scenarios. More crutially, we frame the LLM as the core agent and the retrieval corpus as its environment, using tailored rewards on format, retrieval, reasoning structure, and diagnostic accuracy, thereby evolving the agentic RAG policy from large-scale data through RL. Experiments demonstrate that our end-to-end agentic RL training framework consistently outperforms prompt-engineering and training-free RAG approaches across multiple data centers. After training, Deep-DxSearch achieves substantial gains in diagnostic accuracy, surpassing strong diagnostic baselines such as GPT-4o, DeepSeek-R1, and other medical-specific frameworks for both common and rare disease diagnosis under in-distribution and out-of-distribution settings. Moreover, ablation studies on reward design and retrieval corpus components confirm their critical roles, underscoring the uniqueness and effectiveness of our approach compared with traditional implementations. Finally, case studies and interpretability analyses highlight improvements in Deep-DxSearch's diagnostic policy, providing deeper insight into its performance gains and supporting clinicians in delivering more reliable and precise preliminary diagnoses. See https://github.com/MAGIC-AI4Med/Deep-DxSearch.