Human-Guided Agentic AI for Multimodal Clinical Prediction: Lessons from the AgentDS Healthcare Benchmark

📄 arXiv: 2602.19502v1 📥 PDF

作者: Lalitha Pranathi Pulavarthy, Raajitha Muthyala, Aravind V Kuruvikkattil, Zhenan Yin, Rashmita Kudamala, Saptarshi Purkayastha

分类: cs.AI, cs.LG

发布日期: 2026-02-23

备注: Submitted to the Data Challenge track at the 14th IEEE International Conference on Healthcare Informatics (ICHI) 2026


💡 一句话要点

提出人机协作的Agentic AI,用于多模态临床预测,并在AgentDS医疗基准上验证有效性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Agentic AI 人机协作 多模态数据 临床预测 特征工程 模型选择 医疗健康 可解释性

📋 核心要点

  1. 现有Agentic AI在临床预测中缺乏领域知识,难以处理复杂的多模态数据。
  2. 提出人机协作的Agentic AI框架,让人类专家在关键决策点指导AI工作流程。
  3. 实验表明,人工指导的特征工程和模型选择显著提升了临床预测的准确性和可解释性。

📝 摘要(中文)

Agentic AI系统在自主数据科学工作流程中的能力日益增强,但临床预测任务需要领域专业知识,而纯粹的自动化方法难以提供。本文研究了人类指导Agentic AI如何改善多模态临床预测,并在AgentDS Healthcare基准挑战赛的三个任务上验证了该方法:30天住院再入院预测(Macro-F1 = 0.8986),急诊科成本预测(MAE = $465.13)和出院准备评估(Macro-F1 = 0.7939)。在这些任务中,人类分析师在关键决策点指导Agentic工作流程,包括从临床笔记、扫描的PDF账单收据和时间序列生命体征中进行多模态特征工程;选择适合任务的模型;以及采用临床知情的验证策略。该方法在医疗保健领域总体排名第五,在出院准备任务中排名第三。消融研究表明,人工指导的决策相对于自动化基线累积增益为+0.065 F1,其中多模态特征提取贡献了最大的单一改进(+0.041 F1)。本文总结了三个可推广的经验教训:(1)在每个pipeline阶段进行领域知情的特征工程,其累积收益优于广泛的自动化搜索;(2)多模态数据集成需要特定于任务的人工判断,没有单一的提取策略可以推广到临床文本、PDF和时间序列;(3)具有临床动机的模型配置的刻意集成多样性优于随机超参数搜索。这些发现为在医疗保健环境中部署Agentic AI的团队提供了实践指导,在这些环境中,可解释性、可重复性和临床有效性至关重要。

🔬 方法详解

问题定义:现有Agentic AI在临床预测任务中,由于缺乏足够的领域知识,难以有效处理和整合来自临床笔记、PDF账单和时间序列生命体征等多模态数据,导致预测性能受限。此外,纯粹的自动化方法在特征工程、模型选择和验证策略等方面难以满足临床场景对可解释性和临床有效性的要求。

核心思路:本文的核心思路是将人类专家的领域知识融入到Agentic AI的工作流程中,通过人机协作的方式,在关键决策点(如特征工程、模型选择和验证)让人类专家进行指导,从而提升Agentic AI在多模态临床预测任务中的性能和可解释性。

技术框架:整体框架包含以下主要模块:1) 数据预处理:对临床笔记、PDF账单和时间序列生命体征等多模态数据进行清洗和标准化。2) 人工指导的特征工程:人类专家根据领域知识,指导Agentic AI从多模态数据中提取相关特征。3) 模型选择:人类专家根据任务特点和数据特性,指导Agentic AI选择合适的预测模型。4) 模型训练与评估:Agentic AI根据选择的模型和特征进行训练,并使用临床知情的验证策略进行评估。5) 结果分析与解释:人类专家对模型预测结果进行分析和解释,确保其临床有效性。

关键创新:本文最重要的技术创新点在于提出了人机协作的Agentic AI框架,将人类专家的领域知识融入到AI的工作流程中,从而提升了AI在复杂临床预测任务中的性能和可解释性。与现有方法的本质区别在于,现有方法主要依赖于纯粹的自动化搜索和学习,而本文强调人类专家的指导作用。

关键设计:在特征工程方面,针对不同模态的数据,设计了不同的特征提取策略,例如,对于临床笔记,使用了自然语言处理技术提取关键的临床信息;对于PDF账单,使用了OCR技术提取费用信息;对于时间序列生命体征,提取了统计特征和时间序列特征。在模型选择方面,根据任务特点,选择了不同的预测模型,例如,对于住院再入院预测,选择了分类模型;对于急诊科成本预测,选择了回归模型。在验证策略方面,采用了临床知情的验证方法,例如,使用临床专家进行结果验证。

📊 实验亮点

实验结果表明,人机协作的Agentic AI框架在AgentDS Healthcare基准挑战赛的三个任务上均取得了显著的性能提升。在30天住院再入院预测任务中,Macro-F1达到0.8986;在急诊科成本预测任务中,MAE降低至$465.13;在出院准备评估任务中,Macro-F1达到0.7939。消融研究表明,人工指导的决策相对于自动化基线累积增益为+0.065 F1,其中多模态特征提取贡献了最大的单一改进(+0.041 F1)。

🎯 应用场景

该研究成果可应用于多种临床预测场景,例如疾病诊断、病情评估、预后预测和治疗方案选择等。通过人机协作的方式,可以提升临床决策的准确性和效率,降低医疗成本,改善患者预后。未来,该方法有望推广到其他医疗领域,例如药物研发、健康管理和公共卫生等。

📄 摘要(原文)

Agentic AI systems are increasingly capable of autonomous data science workflows, yet clinical prediction tasks demand domain expertise that purely automated approaches struggle to provide. We investigate how human guidance of agentic AI can improve multimodal clinical prediction, presenting our approach to all three AgentDS Healthcare benchmark challenges: 30-day hospital readmission prediction (Macro-F1 = 0.8986), emergency department cost forecasting (MAE = $465.13), and discharge readiness assessment (Macro-F1 = 0.7939). Across these tasks, human analysts directed the agentic workflow at key decision points, multimodal feature engineering from clinical notes, scanned PDF billing receipts, and time-series vital signs; task-appropriate model selection; and clinically informed validation strategies. Our approach ranked 5th overall in the healthcare domain, with a 3rd-place finish on the discharge readiness task. Ablation studies reveal that human-guided decisions compounded to a cumulative gain of +0.065 F1 over automated baselines, with multimodal feature extraction contributing the largest single improvement (+0.041 F1). We distill three generalizable lessons: (1) domain-informed feature engineering at each pipeline stage yields compounding gains that outperform extensive automated search; (2) multimodal data integration requires task-specific human judgment that no single extraction strategy generalizes across clinical text, PDFs, and time-series; and (3) deliberate ensemble diversity with clinically motivated model configurations outperforms random hyperparameter search. These findings offer practical guidance for teams deploying agentic AI in healthcare settings where interpretability, reproducibility, and clinical validity are essential.