AgentRx: A Benchmark Study of LLM Agents for Multimodal Clinical Prediction Tasks

作者: Baraa Al Jorf, Farah E. Shamout

分类: cs.AI

发布日期: 2026-05-11

备注: Accepted at the AHLI Conference on Health, Inference, and Learning 2026

💡 一句话要点

AgentRx：评估LLM Agent在多模态临床预测任务中的性能表现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: LLM Agent 多模态学习 临床预测 电子健康记录 医学图像

📋 核心要点

现有临床决策支持系统缺乏有效整合异构多模态数据的能力，限制了其在复杂临床场景中的应用。
该研究系统评估了基于LLM的Agent在单模态和多模态临床预测任务中的表现，并对比了单Agent和多Agent系统的性能。
实验结果表明，单Agent框架在多模态数据处理和校准方面优于简单的多Agent系统，为多Agent协作改进指明方向。

📝 摘要（中文）

构建有效的临床决策支持系统需要整合复杂的异构多模态数据，包括时序电子健康记录、医学图像、放射学报告和临床笔记等。基于大型语言模型（LLM）的Agent在各种医疗保健任务中表现出令人印象深刻的性能，尤其是在涉及文本模态的任务中。考虑到医疗保健数据在医院系统中的分散性，协作Agent框架为缓解数据共享挑战提供了一个有希望的方向。然而，LLM Agent在多模态临床风险预测方面的有效性在很大程度上仍未得到检验。在本工作中，我们使用大规模真实世界数据对LLM Agent在临床预测任务中的性能进行系统评估。我们评估了单模态和多模态设置下的性能，并量化了单Agent系统和多Agent系统之间的性能差距。我们的研究结果表明，单Agent框架优于简单的多Agent系统，更擅长处理多模态数据，并且校准得更好。这突出了改进多Agent协作以更好地处理异构输入的关键需求。通过开源我们的代码和评估框架，这项工作提供了一个新的基准，以支持未来与医疗保健领域Agent系统的发展。

🔬 方法详解

问题定义：论文旨在评估LLM Agent在多模态临床风险预测任务中的性能。现有方法主要痛点在于，医疗数据分散在不同医院系统，难以整合利用，且LLM Agent在处理多模态临床数据方面的能力尚未得到充分研究。

核心思路：论文的核心思路是构建一个基准测试框架，系统地评估LLM Agent在单模态和多模态临床预测任务中的表现，并比较单Agent和多Agent系统的性能差异。通过量化分析，揭示LLM Agent在处理异构临床数据方面的优势与不足。

技术框架：整体框架包括数据预处理、Agent构建、任务定义、评估指标等几个主要模块。首先，对大规模真实世界临床数据进行清洗和转换，形成适合LLM Agent处理的格式。然后，构建基于LLM的单Agent和多Agent系统，并定义一系列临床预测任务，例如疾病诊断、预后预测等。最后，采用多种评估指标，如准确率、精确率、召回率、F1值和校准度等，对Agent的性能进行全面评估。

关键创新：该研究的关键创新在于首次系统地评估了LLM Agent在多模态临床风险预测任务中的性能，并提出了AgentRx基准测试框架，为后续研究提供了一个标准化的评估平台。此外，研究还深入分析了单Agent和多Agent系统在处理异构临床数据方面的差异，为多Agent协作策略的改进提供了重要启示。与现有方法相比，该研究更注重对LLM Agent在真实临床场景中的实用性进行评估。

关键设计：论文在Agent构建方面可能采用了不同的LLM模型作为Agent的基础，例如GPT-3、GPT-4等。在多Agent系统中，可能采用了不同的协作策略，例如投票机制、专家咨询等。在损失函数方面，可能采用了交叉熵损失函数或Focal Loss等，以解决类别不平衡问题。具体的参数设置、网络结构等技术细节在论文中可能没有详细描述，需要进一步查阅论文原文或相关资料。

🖼️ 关键图片

📊 实验亮点

实验结果表明，单Agent框架在多模态数据处理和校准方面优于简单的多Agent系统。具体而言，单Agent在准确率、精确率、召回率和F1值等指标上均表现更佳。此外，单Agent的校准度也明显高于多Agent系统，这意味着单Agent的预测结果更可靠。这些结果表明，在当前的LLM Agent技术水平下，单Agent框架更适合处理复杂的临床预测任务。

🎯 应用场景

该研究成果可应用于构建更有效的临床决策支持系统，辅助医生进行疾病诊断、预后预测和治疗方案制定。通过整合多模态临床数据，LLM Agent可以提供更全面、准确的风险评估，从而改善患者的治疗效果和预后。此外，AgentRx基准测试框架可以促进医疗AI领域的研究和发展，推动LLM Agent在医疗领域的更广泛应用。

📄 摘要（原文）

Building effective clinical decision support systems requires the synthesis of complex heterogeneous multimodal data. Such modalities include temporal electronic health records data, medical images, radiology reports, and clinical notes. Large language model (LLM)-based agents have shown impressive performance in various healthcare tasks, especially those involving textual modalities. Considering the fragmentation of healthcare data across hospital systems, collaborative agent frameworks present a promising direction to mitigate data sharing challenges. However, the effectiveness of LLM agents for multimodal clinical risk prediction remains largely unexamined. In this work, we conduct a systematic evaluation of LLM-based agents for clinical prediction tasks using large-scale real-world data. We assess performance in unimodal and multimodal settings and quantify performance gaps between single agent and multi-agent systems. Our findings highlight that single agent frameworks outperform naive multi-agent systems, are better at handling multimodal data, and are better calibrated. This underscores a critical need for improving multi-agent collaboration to better handle heterogeneous inputs. By open-sourcing our code and evaluation framework, this work offers a new benchmark to support future developments relating to agentic systems in healthcare.

AgentRx: A Benchmark Study of LLM Agents for Multimodal Clinical Prediction Tasks

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理