A Multi-agent Large Language Model Framework to Automatically Assess Performance of a Clinical AI Triage Tool

作者: Adam E. Flanders, Yifan Peng, Luciano Prevedello, Robyn Ball, Errol Colak, Prahlad Menon, George Shih, Hui-Ming Lin, Paras Lakhani

分类: cs.CL

发布日期: 2025-10-30

备注: 29 pages, 3 figures, 4 tables

💡 一句话要点

提出多Agent LLM框架，自动评估临床AI分诊工具的性能

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 多Agent系统 大型语言模型 临床AI评估 颅内出血检测 医学影像分析

📋 核心要点

现有临床AI分诊工具的评估依赖人工，成本高昂且主观性强，缺乏高效、客观的评估方法。
构建多Agent LLM框架，集成多个开源LLM，通过共识机制提高评估的可靠性和一致性。
实验表明，LLM集成在评估颅内出血AI检测工具时，性能优于单个LLM，且与GPT-4o性能接近。

📝 摘要（中文）

本研究旨在确定，相比于单个大型语言模型（LLM），多个LLM Agent集成能否更可靠地评估基于像素的AI分诊工具的性能。研究使用了来自14家医院的29766例非对比CT头部检查，这些检查由商业颅内出血（ICH）AI检测工具处理。放射科报告由包含8个开源LLM模型和一个符合HIPAA标准的内部GPT-4o版本组成的集成进行分析，使用单一的多样本提示评估ICH的存在。人工审查了1726个样本。将8个开源模型的性能特征和共识与GPT-4o进行了比较。测试了三种理想的共识LLM集成，用于评估分诊工具的性能。结果表明，Llama3.3:70b和GPT-4o的AUC性能最高（AUC=0.78）。Llama3.3:70b和GPT-4o的平均精度最高（AP=0.75和0.76）。Llama3.3:70b具有最高的F1分数（0.81）和召回率（0.85），更高的精确度（0.78），特异性（0.72）和MCC（0.57）。根据MCC（95% CI），LLM的最佳组合是：完整9模型集成0.571（0.552-0.591），前3模型集成0.558（0.537-0.579），共识0.556（0.539-0.574）和GPT4o 0.522（0.500-0.543）。前3模型集成、完整9模型集成和共识之间没有观察到统计学上的显著差异（p > 0.05）。结论是，中大型开源LLM的集成提供了一种比单独使用单个LLM更一致和可靠的方法，来获得临床AI分诊工具的回顾性评估的真实值。

🔬 方法详解

问题定义：该论文旨在解决临床AI分诊工具性能评估的问题。现有方法主要依赖于人工评估，这种方法耗时、成本高，并且容易受到评估者主观性的影响，导致评估结果缺乏一致性和可靠性。因此，需要一种自动化、客观且可靠的方法来评估这些AI工具的性能。

核心思路：论文的核心思路是利用多个大型语言模型（LLM）构建一个多Agent系统，通过集成多个LLM的评估结果，形成一个共识性的评估意见。这种方法借鉴了“集体智慧”的思想，旨在降低单个LLM可能存在的偏差，提高评估的准确性和鲁棒性。通过比较不同LLM集成方式的性能，找到最佳的集成策略。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 数据准备：收集大量的CT头部检查数据和对应的放射科报告。2) AI工具处理：使用商业颅内出血（ICH）AI检测工具处理CT图像。3) LLM评估：使用包含8个开源LLM模型和一个内部GPT-4o版本的集成，对放射科报告进行分析，判断是否存在ICH。每个LLM都使用相同的多样本提示。4) 共识机制：通过某种共识机制（例如投票或平均）将多个LLM的评估结果进行整合。5) 性能评估：将LLM集成的评估结果与人工审查的“金标准”进行比较，计算AUC、平均精度、F1分数等指标，评估LLM集成的性能。

关键创新：该研究的关键创新在于：1) 提出了使用多Agent LLM框架来自动化评估临床AI工具的性能。2) 探索了不同LLM集成方式对评估结果的影响，并找到了最佳的集成策略。3) 验证了开源LLM在特定任务上的潜力，并表明它们可以与商业LLM相媲美。

关键设计：研究中关键的设计包括：1) LLM的选择：选择了多个不同架构和规模的开源LLM，以增加集成的多样性。2) 提示工程：使用了精心设计的多样本提示，以引导LLM进行准确的评估。3) 共识机制：测试了不同的共识机制，例如完整集成、Top-3集成和简单共识，以找到最佳的集成方式。4) 性能指标：使用了多种性能指标（AUC、平均精度、F1分数、MCC等）来全面评估LLM集成的性能。

📊 实验亮点

实验结果表明，Llama3.3:70b和GPT-4o在AUC和平均精度上表现最佳（AUC=0.78，AP=0.75/0.76）。Llama3.3:70b在F1分数（0.81）、召回率（0.85）、精确度（0.78）、特异性（0.72）和MCC（0.57）上均表现出色。多LLM集成在MCC指标上优于单独使用GPT-4o，表明集成策略的有效性。

🎯 应用场景

该研究成果可应用于临床AI工具的自动化评估，加速AI工具的部署和应用。通过客观、高效的评估，有助于提高临床决策的质量和效率，降低医疗成本。未来可扩展到其他医学影像分析任务，例如肿瘤检测、骨折诊断等，具有广阔的应用前景。

📄 摘要（原文）

Purpose: The purpose of this study was to determine if an ensemble of multiple LLM agents could be used collectively to provide a more reliable assessment of a pixel-based AI triage tool than a single LLM. Methods: 29,766 non-contrast CT head exams from fourteen hospitals were processed by a commercial intracranial hemorrhage (ICH) AI detection tool. Radiology reports were analyzed by an ensemble of eight open-source LLM models and a HIPAA compliant internal version of GPT-4o using a single multi-shot prompt that assessed for presence of ICH. 1,726 examples were manually reviewed. Performance characteristics of the eight open-source models and consensus were compared to GPT-4o. Three ideal consensus LLM ensembles were tested for rating the performance of the triage tool. Results: The cohort consisted of 29,766 head CTs exam-report pairs. The highest AUC performance was achieved with llama3.3:70b and GPT-4o (AUC= 0.78). The average precision was highest for Llama3.3:70b and GPT-4o (AP=0.75 & 0.76). Llama3.3:70b had the highest F1 score (0.81) and recall (0.85), greater precision (0.78), specificity (0.72), and MCC (0.57). Using MCC (95% CI) the ideal combination of LLMs were: Full-9 Ensemble 0.571 (0.552-0.591), Top-3 Ensemble 0.558 (0.537-0.579), Consensus 0.556 (0.539-0.574), and GPT4o 0.522 (0.500-0.543). No statistically significant differences were observed between Top-3, Full-9, and Consensus (p > 0.05). Conclusion: An ensemble of medium to large sized open-source LLMs provides a more consistent and reliable method to derive a ground truth retrospective evaluation of a clinical AI triage tool over a single LLM alone.

A Multi-agent Large Language Model Framework to Automatically Assess Performance of a Clinical AI Triage Tool

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理