A Multi-agent Large Language Model Framework to Automatically Assess Performance of a Clinical AI Triage Tool

📄 arXiv: 2510.26498v1 📥 PDF

作者: Adam E. Flanders, Yifan Peng, Luciano Prevedello, Robyn Ball, Errol Colak, Prahlad Menon, George Shih, Hui-Ming Lin, Paras Lakhani

分类: cs.CL

发布日期: 2025-10-30

备注: 29 pages, 3 figures, 4 tables


💡 一句话要点

提出多Agent LLM框架,自动评估临床AI分诊工具的性能

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 多Agent系统 大型语言模型 临床AI评估 颅内出血检测 医学影像分析

📋 核心要点

  1. 现有临床AI分诊工具的评估依赖人工,成本高昂且主观性强,缺乏高效、客观的评估方法。
  2. 构建多Agent LLM框架,集成多个开源LLM,通过共识机制提高评估的可靠性和一致性。
  3. 实验表明,LLM集成在评估颅内出血AI检测工具时,性能优于单个LLM,且与GPT-4o性能接近。

📝 摘要(中文)

本研究旨在确定,相比于单个大型语言模型(LLM),多个LLM Agent集成能否更可靠地评估基于像素的AI分诊工具的性能。研究使用了来自14家医院的29766例非对比CT头部检查,这些检查由商业颅内出血(ICH)AI检测工具处理。放射科报告由包含8个开源LLM模型和一个符合HIPAA标准的内部GPT-4o版本组成的集成进行分析,使用单一的多样本提示评估ICH的存在。人工审查了1726个样本。将8个开源模型的性能特征和共识与GPT-4o进行了比较。测试了三种理想的共识LLM集成,用于评估分诊工具的性能。结果表明,Llama3.3:70b和GPT-4o的AUC性能最高(AUC=0.78)。Llama3.3:70b和GPT-4o的平均精度最高(AP=0.75和0.76)。Llama3.3:70b具有最高的F1分数(0.81)和召回率(0.85),更高的精确度(0.78),特异性(0.72)和MCC(0.57)。根据MCC(95% CI),LLM的最佳组合是:完整9模型集成0.571(0.552-0.591),前3模型集成0.558(0.537-0.579),共识0.556(0.539-0.574)和GPT4o 0.522(0.500-0.543)。前3模型集成、完整9模型集成和共识之间没有观察到统计学上的显著差异(p > 0.05)。结论是,中大型开源LLM的集成提供了一种比单独使用单个LLM更一致和可靠的方法,来获得临床AI分诊工具的回顾性评估的真实值。

🔬 方法详解

问题定义:该论文旨在解决临床AI分诊工具性能评估的问题。现有方法主要依赖于人工评估,这种方法耗时、成本高,并且容易受到评估者主观性的影响,导致评估结果缺乏一致性和可靠性。因此,需要一种自动化、客观且可靠的方法来评估这些AI工具的性能。

核心思路:论文的核心思路是利用多个大型语言模型(LLM)构建一个多Agent系统,通过集成多个LLM的评估结果,形成一个共识性的评估意见。这种方法借鉴了“集体智慧”的思想,旨在降低单个LLM可能存在的偏差,提高评估的准确性和鲁棒性。通过比较不同LLM集成方式的性能,找到最佳的集成策略。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 数据准备:收集大量的CT头部检查数据和对应的放射科报告。2) AI工具处理:使用商业颅内出血(ICH)AI检测工具处理CT图像。3) LLM评估:使用包含8个开源LLM模型和一个内部GPT-4o版本的集成,对放射科报告进行分析,判断是否存在ICH。每个LLM都使用相同的多样本提示。4) 共识机制:通过某种共识机制(例如投票或平均)将多个LLM的评估结果进行整合。5) 性能评估:将LLM集成的评估结果与人工审查的“金标准”进行比较,计算AUC、平均精度、F1分数等指标,评估LLM集成的性能。

关键创新:该研究的关键创新在于:1) 提出了使用多Agent LLM框架来自动化评估临床AI工具的性能。2) 探索了不同LLM集成方式对评估结果的影响,并找到了最佳的集成策略。3) 验证了开源LLM在特定任务上的潜力,并表明它们可以与商业LLM相媲美。

关键设计:研究中关键的设计包括:1) LLM的选择:选择了多个不同架构和规模的开源LLM,以增加集成的多样性。2) 提示工程:使用了精心设计的多样本提示,以引导LLM进行准确的评估。3) 共识机制:测试了不同的共识机制,例如完整集成、Top-3集成和简单共识,以找到最佳的集成方式。4) 性能指标:使用了多种性能指标(AUC、平均精度、F1分数、MCC等)来全面评估LLM集成的性能。

📊 实验亮点

实验结果表明,Llama3.3:70b和GPT-4o在AUC和平均精度上表现最佳(AUC=0.78,AP=0.75/0.76)。Llama3.3:70b在F1分数(0.81)、召回率(0.85)、精确度(0.78)、特异性(0.72)和MCC(0.57)上均表现出色。多LLM集成在MCC指标上优于单独使用GPT-4o,表明集成策略的有效性。

🎯 应用场景

该研究成果可应用于临床AI工具的自动化评估,加速AI工具的部署和应用。通过客观、高效的评估,有助于提高临床决策的质量和效率,降低医疗成本。未来可扩展到其他医学影像分析任务,例如肿瘤检测、骨折诊断等,具有广阔的应用前景。

📄 摘要(原文)

Purpose: The purpose of this study was to determine if an ensemble of multiple LLM agents could be used collectively to provide a more reliable assessment of a pixel-based AI triage tool than a single LLM. Methods: 29,766 non-contrast CT head exams from fourteen hospitals were processed by a commercial intracranial hemorrhage (ICH) AI detection tool. Radiology reports were analyzed by an ensemble of eight open-source LLM models and a HIPAA compliant internal version of GPT-4o using a single multi-shot prompt that assessed for presence of ICH. 1,726 examples were manually reviewed. Performance characteristics of the eight open-source models and consensus were compared to GPT-4o. Three ideal consensus LLM ensembles were tested for rating the performance of the triage tool. Results: The cohort consisted of 29,766 head CTs exam-report pairs. The highest AUC performance was achieved with llama3.3:70b and GPT-4o (AUC= 0.78). The average precision was highest for Llama3.3:70b and GPT-4o (AP=0.75 & 0.76). Llama3.3:70b had the highest F1 score (0.81) and recall (0.85), greater precision (0.78), specificity (0.72), and MCC (0.57). Using MCC (95% CI) the ideal combination of LLMs were: Full-9 Ensemble 0.571 (0.552-0.591), Top-3 Ensemble 0.558 (0.537-0.579), Consensus 0.556 (0.539-0.574), and GPT4o 0.522 (0.500-0.543). No statistically significant differences were observed between Top-3, Full-9, and Consensus (p > 0.05). Conclusion: An ensemble of medium to large sized open-source LLMs provides a more consistent and reliable method to derive a ground truth retrospective evaluation of a clinical AI triage tool over a single LLM alone.