Evolving Diagnostic Agents in a Virtual Clinical Environment
作者: Pengcheng Qiu, Chaoyi Wu, Junwei Liu, Qiaoyu Zheng, Yusheng Liao, Haowen Wang, Yun Yue, Qianrui Fan, Shuai Zhen, Jian Wang, Jinjie Gu, Yanfeng Wang, Ya Zhang, Weidi Xie
分类: cs.CL
发布日期: 2025-10-28
💡 一句话要点
提出基于强化学习的诊断智能体框架,提升LLM在虚拟临床环境中的诊断能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 强化学习 大型语言模型 医疗诊断 虚拟临床环境 诊断智能体
📋 核心要点
- 现有指令调优的LLM在诊断任务中依赖静态数据,缺乏交互探索和动态决策能力。
- 提出DiagAgent,通过强化学习在虚拟临床环境DiagGym中学习诊断策略,优化信息获取和诊断准确性。
- DiagAgent在诊断准确率和检查推荐方面显著优于现有LLM,证明了交互式学习的有效性。
📝 摘要(中文)
本文提出了一个利用强化学习训练大型语言模型(LLM)作为诊断智能体的框架,使其能够管理多轮诊断过程,自适应地选择检查项目,并给出最终诊断。与在静态病例摘要上进行指令调优的模型不同,该方法通过交互式探索和基于结果的反馈来获得诊断策略。主要贡献包括:(i) DiagGym,一个使用电子健康记录训练的诊断世界模型,可以根据患者病史和推荐的检查项目输出检查结果,作为真实的诊断训练和评估的虚拟临床环境;(ii) DiagAgent,通过端到端、多轮强化学习进行训练,以学习优化信息产出和诊断准确性的诊断策略;(iii) DiagBench,一个诊断基准,包含750个经过医生验证的检查推荐案例和99个带有973个医生撰写的诊断过程评价标准的案例;(iv) 实验证明了该方法在各种诊断设置中表现优异。DiagAgent显著优于10个最先进的LLM,包括DeepSeek-v3和GPT-4o,以及两个提示工程智能体。在单轮设置中,DiagAgent的诊断准确率提高了9.34%,检查推荐命中率提高了44.03%。在端到端设置中,诊断准确率提高了15.12%,检查推荐F1分数提高了23.09%。在基于评价标准的评估中,其加权评价标准得分比次优模型Claude-sonnet-4高出7.1%。这些发现表明,在交互式临床环境中学习策略可以赋予动态且具有临床意义的诊断管理能力,这是仅通过被动训练无法实现的。
🔬 方法详解
问题定义:现有的大型语言模型在应用于医疗诊断时,主要依赖于静态的病例数据进行训练,缺乏与环境的交互能力,无法根据患者的实时反馈动态调整诊断策略。这导致模型在实际应用中难以应对复杂多变的临床情况,诊断准确率和效率受到限制。现有方法的痛点在于无法模拟真实的临床诊断过程,缺乏基于结果反馈的策略优化机制。
核心思路:本文的核心思路是利用强化学习,使LLM能够在一个虚拟的临床环境中进行交互式学习,通过不断探索和试错,学习到最优的诊断策略。这种方法模拟了医生在实际诊断过程中的决策过程,即根据患者的病史和检查结果,选择合适的检查项目,并最终给出诊断结果。通过奖励机制,鼓励模型选择能够最大化信息增益和诊断准确率的策略。
技术框架:该框架主要包含三个核心模块:DiagGym(虚拟临床环境)、DiagAgent(诊断智能体)和DiagBench(诊断基准)。DiagGym是一个基于电子健康记录训练的世界模型,用于模拟真实的临床环境,并根据患者病史和推荐的检查项目生成检查结果。DiagAgent是一个基于LLM的诊断智能体,通过强化学习在DiagGym中学习诊断策略。DiagBench是一个包含医生验证的案例和评价标准的诊断基准,用于评估DiagAgent的性能。整个流程是DiagAgent与DiagGym进行多轮交互,根据患者病史选择检查项目,DiagGym返回检查结果,DiagAgent根据结果更新诊断策略,最终给出诊断结果。
关键创新:最重要的技术创新点在于将强化学习应用于LLM的训练,使其能够在一个虚拟的临床环境中进行交互式学习。与传统的指令调优方法不同,该方法能够使模型根据患者的实时反馈动态调整诊断策略,从而提高诊断准确率和效率。此外,DiagGym的提出为诊断智能体的训练和评估提供了一个真实的虚拟环境,避免了在真实临床环境中进行实验的风险和成本。
关键设计:在强化学习的训练过程中,采用了端到端的训练方式,直接优化诊断准确率和检查推荐的效率。奖励函数的设计至关重要,需要平衡信息增益和诊断准确率之间的关系。具体而言,奖励函数可以包括诊断正确性的奖励、检查推荐的奖励以及避免不必要检查的惩罚。此外,LLM的网络结构和参数设置也需要根据具体的诊断任务进行调整,以提高模型的表达能力和泛化能力。
🖼️ 关键图片
📊 实验亮点
DiagAgent在单轮诊断中,诊断准确率比SOTA模型高9.34%,检查推荐命中率提升44.03%。在端到端诊断中,诊断准确率提升15.12%,检查推荐F1值提升23.09%。在基于医生评价标准的评估中,DiagAgent的加权得分比次优模型高7.1%。这些数据表明,DiagAgent在各种诊断场景下均表现出显著的优越性。
🎯 应用场景
该研究成果可应用于智能辅助诊断系统,帮助医生提高诊断效率和准确性,尤其是在资源匮乏的地区或基层医疗机构。此外,该框架还可以扩展到其他医疗领域,如疾病预测、个性化治疗方案推荐等,具有广阔的应用前景和实际价值。未来,该技术有望改变医疗诊断的模式,实现更加智能化和个性化的医疗服务。
📄 摘要(原文)
In this paper, we present a framework for training large language models (LLMs) as diagnostic agents with reinforcement learning, enabling them to manage multi-turn diagnostic processes, adaptively select examinations, and commit to final diagnoses. Unlike instruction-tuned models trained on static case summaries, our method acquires diagnostic strategies through interactive exploration and outcome-based feedback. Our contributions are fourfold: (i) We present DiagGym, a diagnostics world model trained with electronic health records that emits examination outcomes conditioned on patient history and recommended examination, serving as a virtual clinical environment for realistic diagnosis training and evaluation; (ii) We train DiagAgent via end-to-end, multi-turn reinforcement learning to learn diagnostic policies that optimize both information yield and diagnostic accuracy; (iii) We introduce DiagBench, a diagnostic benchmark comprising 750 cases with physician-validated examination recommendations and 99 cases annotated with 973 physician-written rubrics on diagnosis process; (iv) we demonstrate superior performance across diverse diagnostic settings. DiagAgent significantly outperforms 10 state-of-the-art LLMs, including DeepSeek-v3 and GPT-4o, as well as two prompt-engineered agents. In single-turn settings, DiagAgent achieves 9.34% higher diagnostic accuracy and 44.03% improvement in examination recommendation hit ratio. In end-to-end settings, it delivers 15.12% increase in diagnostic accuracy and 23.09% boost in examination recommendation F1 score. In rubric-based evaluation, it surpasses the next-best model, Claude-sonnet-4, by 7.1% in weighted rubric score. These findings indicate that learning policies in interactive clinical environments confers dynamic and clinically meaningful diagnostic management abilities unattainable through passive training alone.