XAI4LLM. Let Machine Learning Models and LLMs Collaborate for Enhanced In-Context Learning in Healthcare
作者: Fatemeh Nazary, Yashar Deldjoo, Tommaso Di Noia, Eugenio di Sciascio
分类: cs.LG, cs.AI, cs.CL
发布日期: 2024-05-10 (更新: 2025-07-25)
💡 一句话要点
提出XAI4LLM框架,利用领域知识增强LLM在医疗场景下的上下文学习能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 上下文学习 大型语言模型 临床决策支持 领域知识 公平性 医疗人工智能 提示工程
📋 核心要点
- 临床决策支持系统需要高精度、公平且对误诊影响敏感的模型,现有方法难以兼顾。
- XAI4LLM框架通过整合领域知识、平衡样本和任务提示,提升LLM处理结构化临床数据的能力。
- 实验表明,LLM在召回率和公平性方面优于传统ML模型,尤其是在减少性别偏见方面。
📝 摘要(中文)
本研究提出了一种知识引导的上下文学习(ICL)框架XAI4LLM,旨在使大型语言模型(LLM)能够有效地处理结构化临床数据。该方法整合了领域特定的特征分组、精心平衡的少量样本以及任务特定的提示策略。通过在心脏病和糖尿病预测任务上,对七十种不同的ICL设计(包括不同的提示变体和两种通信风格——自然语言叙述和数字对话)进行系统评估,并将其性能与强大的经典机器学习(ML)基准进行比较。结果表明,虽然传统ML模型在平衡的精确率-召回率场景中保持卓越性能,但采用带有集成领域知识的叙述提示的LLM实现了更高的召回率,并显著降低了性别偏见,有效地将公平性差距缩小了一个数量级。尽管目前存在推理延迟增加的限制,但LLM提供了显著的优势,包括零样本部署能力和增强的公平性。这项研究首次全面分析了将LLM应用于表格临床任务的ICL设计考虑因素,并强调了知识蒸馏和多模态扩展作为未来研究的有希望的方向。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在处理结构化临床数据时,精度不足和公平性欠佳的问题。现有方法,如传统机器学习模型,虽然在精度上表现良好,但在公平性和零样本部署能力方面存在局限性。此外,直接将LLM应用于表格数据通常效果不佳,缺乏对领域知识的有效利用。
核心思路:论文的核心思路是利用领域知识引导LLM的上下文学习(ICL)过程,从而提高LLM在临床任务中的性能和公平性。通过精心设计的提示(prompt)和少量样本(few-shot examples),使LLM能够更好地理解和利用结构化临床数据中的信息。同时,通过不同的提示风格(自然语言叙述和数字对话)来探索LLM与临床数据的交互方式。
技术框架:XAI4LLM框架主要包含三个关键模块:1) 领域知识整合模块:将领域专家知识融入到特征分组和提示设计中;2) 上下文学习模块:构建包含少量样本和任务特定提示的上下文,引导LLM进行预测;3) 评估模块:采用多种指标(包括精度、召回率和公平性指标)对不同ICL设计的性能进行评估。整体流程是:首先,根据领域知识对临床数据进行特征分组;然后,基于这些分组构建不同的提示和少量样本;最后,利用LLM进行预测,并评估其性能。
关键创新:该论文的关键创新在于提出了一种知识引导的上下文学习框架,该框架能够有效地将领域知识融入到LLM的学习过程中,从而提高LLM在临床任务中的性能和公平性。与现有方法相比,该方法更加注重领域知识的利用,并且能够通过不同的提示风格来探索LLM与临床数据的交互方式。此外,该研究还首次全面分析了将LLM应用于表格临床任务的ICL设计考虑因素。
关键设计:在提示设计方面,论文采用了两种不同的提示风格:自然语言叙述和数字对话。自然语言叙述提示使用自然语言描述临床数据和预测任务,而数字对话提示则使用数字表示临床数据。在少量样本选择方面,论文采用了精心平衡的策略,以确保样本在不同类别和性别之间分布均匀。此外,论文还探索了不同的特征分组方式,以确定最佳的领域知识整合策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,采用带有集成领域知识的叙述提示的LLM在心脏病和糖尿病预测任务中实现了更高的召回率,并显著降低了性别偏见,有效地将公平性差距缩小了一个数量级。虽然传统ML模型在平衡的精确率-召回率场景中表现更优,但LLM在零样本部署和公平性方面展现出优势。
🎯 应用场景
该研究成果可应用于临床决策支持系统,辅助医生进行疾病诊断和治疗方案制定。通过提高模型的公平性,可以减少医疗资源分配不均等问题。未来,该方法有望扩展到其他医疗领域,例如药物研发和个性化医疗,并促进医疗人工智能的普及。
📄 摘要(原文)
Clinical decision support systems require models that are not only highly accurate but also equitable and sensitive to the implications of missed diagnoses. In this study, we introduce a knowledge-guided in-context learning (ICL) framework designed to enable large language models (LLMs) to effectively process structured clinical data. Our approach integrates domain-specific feature groupings, carefully balanced few-shot examples, and task-specific prompting strategies. We systematically evaluate this method across seventy distinct ICL designs by various prompt variations and two different communication styles-natural-language narrative and numeric conversational-and compare its performance to robust classical machine learning (ML) benchmarks on tasks involving heart disease and diabetes prediction. Our findings indicate that while traditional ML models maintain superior performance in balanced precision-recall scenarios, LLMs employing narrative prompts with integrated domain knowledge achieve higher recall and significantly reduce gender bias, effectively narrowing fairness disparities by an order of magnitude. Despite the current limitation of increased inference latency, LLMs provide notable advantages, including the capacity for zero-shot deployment and enhanced equity. This research offers the first comprehensive analysis of ICL design considerations for applying LLMs to tabular clinical tasks and highlights distillation and multimodal extensions as promising directions for future research.