MAP: Evaluation and Multi-Agent Enhancement of Large Language Models for Inpatient Pathways

作者: Zhen Chen, Zhihao Peng, Xusheng Liang, Cheng Wang, Peigan Liang, Linsheng Zeng, Minjie Ju, Yixuan Yuan

分类: cs.AI, cs.CL, cs.CV, cs.HC, cs.MA

发布日期: 2025-03-17

💡 一句话要点

提出MAP框架，利用多智能体增强大型语言模型在住院路径决策中的表现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多智能体系统 住院路径 临床决策支持 医疗人工智能

📋 核心要点

现有大型语言模型在医疗领域应用受限于缺乏大规模住院数据集，且现有医疗基准忽略了住院临床决策的复杂性。
论文提出多智能体住院路径（MAP）框架，通过分诊、诊断、治疗三个智能体协同完成住院路径决策，并引入首席智能体进行监督。
实验结果表明，MAP框架在诊断准确率上优于现有模型，且临床依从性超过了有资质的临床医生，为住院路径系统提供了新思路。

📝 摘要（中文）

住院路径需要基于全面的患者信息进行复杂的临床决策，这对临床医生提出了严峻的挑战。尽管大型语言模型（LLM）在医疗应用方面取得了进展，但由于缺乏大规模的住院数据集，针对人工智能（AI）住院路径系统的研究有限。此外，现有的医疗基准通常侧重于医疗问答和考试，忽略了住院环境中临床决策的多方面性。为了解决这些差距，我们首先从MIMIC-IV数据库开发了住院路径决策支持（IPDS）基准，涵盖九个分诊科室和17个主要疾病类别的51,274个病例，以及16个标准化治疗方案。然后，我们提出了多智能体住院路径（MAP）框架，通过三个临床智能体来完成住院路径：分诊智能体管理患者入院，诊断智能体作为科室的主要决策者，治疗智能体提供治疗计划。此外，我们的MAP框架包括一个负责监督住院路径的首席智能体，以指导和促进这三个临床智能体。大量实验表明，与最先进的LLM HuatuoGPT2-13B相比，我们的MAP将诊断准确率提高了25.10%。值得注意的是，我们的MAP表现出显著的临床依从性，优于三位获得委员会认证的临床医生10%-12%，为住院路径系统奠定了基础。

🔬 方法详解

问题定义：现有方法在住院路径决策中面临数据匮乏和任务定义不全面的问题。缺乏大规模住院数据集限制了大型语言模型在该领域的应用。此外，现有医疗基准侧重于问答和考试，无法全面评估临床决策的复杂性，例如诊断和治疗方案选择。现有方法难以模拟临床医生在住院路径中的决策过程。

核心思路：论文的核心思路是将住院路径决策分解为多个智能体协同完成的任务，每个智能体负责不同的临床决策环节（分诊、诊断、治疗）。通过引入一个首席智能体进行监督和指导，模拟临床团队的协作模式，从而提高决策的准确性和临床依从性。这种多智能体协作的方式能够更好地利用大型语言模型的推理能力，并适应住院路径的复杂性。

技术框架：MAP框架包含四个主要智能体：分诊智能体、诊断智能体、治疗智能体和首席智能体。分诊智能体负责患者入院管理，诊断智能体负责科室诊断决策，治疗智能体负责提供治疗方案。首席智能体负责监督和指导其他三个智能体，协调它们之间的工作。整个流程模拟了临床医生在住院路径中的决策过程，从患者入院到最终治疗方案的确定。

关键创新：MAP框架的关键创新在于其多智能体协作的架构，以及首席智能体的引入。这种架构能够更好地模拟临床团队的协作模式，提高决策的准确性和临床依从性。与传统的单智能体方法相比，MAP框架能够更好地利用大型语言模型的推理能力，并适应住院路径的复杂性。

关键设计：论文使用了MIMIC-IV数据库构建了IPDS基准，包含51,274个病例。每个智能体都基于大型语言模型进行训练，并使用特定的损失函数来优化其性能。首席智能体的设计目标是最大化整体的临床依从性，通过强化学习等方法进行训练。具体的参数设置和网络结构在论文中进行了详细描述（未知）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，MAP框架在诊断准确率上优于最先进的LLM HuatuoGPT2-13B 25.10%。更重要的是，MAP框架的临床依从性超过了三位获得委员会认证的临床医生10%-12%，表明该框架在实际临床应用中具有很高的潜力。这些结果验证了多智能体协作在住院路径决策中的有效性。

🎯 应用场景

该研究成果可应用于构建智能住院路径决策支持系统，辅助临床医生进行诊断和治疗方案选择，提高医疗效率和质量。该系统可以根据患者的病情和历史数据，为医生提供个性化的治疗建议，减少医疗差错，并优化医疗资源分配。未来，该技术有望推广到其他医疗领域，例如门诊管理和慢性病管理。

📄 摘要（原文）

Inpatient pathways demand complex clinical decision-making based on comprehensive patient information, posing critical challenges for clinicians. Despite advancements in large language models (LLMs) in medical applications, limited research focused on artificial intelligence (AI) inpatient pathways systems, due to the lack of large-scale inpatient datasets. Moreover, existing medical benchmarks typically concentrated on medical question-answering and examinations, ignoring the multifaceted nature of clinical decision-making in inpatient settings. To address these gaps, we first developed the Inpatient Pathway Decision Support (IPDS) benchmark from the MIMIC-IV database, encompassing 51,274 cases across nine triage departments and 17 major disease categories alongside 16 standardized treatment options. Then, we proposed the Multi-Agent Inpatient Pathways (MAP) framework to accomplish inpatient pathways with three clinical agents, including a triage agent managing the patient admission, a diagnosis agent serving as the primary decision maker at the department, and a treatment agent providing treatment plans. Additionally, our MAP framework includes a chief agent overseeing the inpatient pathways to guide and promote these three clinician agents. Extensive experiments showed our MAP improved the diagnosis accuracy by 25.10% compared to the state-of-the-art LLM HuatuoGPT2-13B. It is worth noting that our MAP demonstrated significant clinical compliance, outperforming three board-certified clinicians by 10%-12%, establishing a foundation for inpatient pathways systems.

MAP: Evaluation and Multi-Agent Enhancement of Large Language Models for Inpatient Pathways

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理