Explainable AI for Mental Health Emergency Returns: Integrating LLMs with Predictive Modeling
作者: Abdulaziz Ahmed, Mohammad Saleem, Mohammed Alzeen, Badari Birur, Rachel E Fargason, Bradley G Burk, Ahmed Alhassan, Mohammed Ali Al-Garadi
分类: cs.LG, cs.AI, cs.CY
发布日期: 2025-01-21 (更新: 2025-07-06)
💡 一句话要点
融合LLM与预测模型,提升精神健康急诊返诊预测的准确性和可解释性
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 可解释性AI 大型语言模型 精神健康 急诊返诊预测 临床决策支持
📋 核心要点
- 精神健康状况的急诊返诊率高,传统机器学习模型缺乏临床可解释性,难以有效支持临床决策。
- 利用LLM提取临床特征并增强模型的可解释性,将SHAP值与临床知识融合,提供临床相关的解释。
- 实验表明,LLM不仅提升了预测精度(AUC提升至0.76),更显著提高了模型的可解释性(准确率达99%)。
📝 摘要(中文)
本研究旨在评估将大型语言模型(LLM)与机器学习相结合,是否能提高急诊科(ED)精神健康返诊风险模型的预测准确性和临床可解释性。研究回顾性分析了2018年1月至2022年12月期间,南部某学术医疗中心27904名精神健康患者的42464次急诊就诊记录。主要评估了30天内急诊返诊预测的准确性,以及使用一种新型的LLM增强框架(整合SHAP值与临床知识)的模型可解释性。结果表明,对于主诉分类,采用10-shot学习的LLaMA 3 (8B)优于传统模型(准确率:0.882,F1-score:0.86)。基于LLM的解释框架在将模型预测转化为临床相关解释方面达到了99%的准确率。LLM提取的特征将XGBoost的AUC从0.74提高到0.76,AUC-PR从0.58提高到0.61。结论是,整合LLM与机器学习模型在适度提高准确性的同时,通过自动化的临床相关解释显著增强了可解释性。这种方法为将预测分析转化为可操作的临床见解提供了一个框架。
🔬 方法详解
问题定义:本研究旨在解决精神健康患者急诊返诊率高的问题,并克服传统机器学习模型在预测返诊风险时缺乏临床可解释性的局限性。现有方法难以提供清晰、可信的解释,阻碍了临床医生对预测结果的信任和应用。
核心思路:核心思路是将大型语言模型(LLM)与传统的机器学习模型相结合,利用LLM强大的自然语言处理能力提取有用的临床特征,并生成易于理解的临床解释。通过这种方式,既能提高预测精度,又能增强模型的可解释性,从而更好地支持临床决策。
技术框架:整体框架包含以下几个主要模块:1) 数据预处理:清洗和准备急诊就诊数据。2) 特征工程:利用LLM从文本数据(如主诉)中提取临床特征和社会决定因素(SDoH)。3) 模型训练:使用提取的特征训练机器学习模型(如XGBoost)来预测30天内的急诊返诊风险。4) 可解释性增强:使用SHAP值分析模型预测结果,并利用LLM将SHAP值转化为临床医生易于理解的解释。
关键创新:最重要的技术创新点在于LLM与SHAP值结合,自动生成临床可解释的预测结果。传统SHAP值虽然可以提供特征重要性,但缺乏临床背景,难以直接应用。本研究利用LLM将SHAP值转化为临床医生能够理解的语言,从而显著提高了模型的可解释性和可用性。
关键设计:研究中使用了LLaMA 3 (8B)模型进行主诉和社会决定因素的分类。采用10-shot learning来提升LLM在小样本情况下的性能。XGBoost模型用于最终的返诊风险预测。可解释性框架的关键在于提示工程,设计合适的提示语,引导LLM生成准确、相关的临床解释。具体提示语的设计细节未知。
📊 实验亮点
研究结果显示,LLaMA 3 (8B)在主诉分类任务中表现出色,准确率达到0.882,F1-score为0.86。LLM提取的特征将XGBoost模型的AUC从0.74提高到0.76,AUC-PR从0.58提高到0.61。最重要的是,LLM增强的可解释性框架在将模型预测转化为临床相关解释方面达到了99%的准确率,显著提升了模型在临床环境中的实用性。
🎯 应用场景
该研究成果可应用于临床决策支持系统,帮助医生识别高风险的急诊返诊患者,并制定个性化的干预措施。通过提供可解释的预测结果,增强医生对模型的信任,促进临床应用。未来,该方法可扩展到其他医疗领域,例如慢性病管理和术后并发症预测。
📄 摘要(原文)
Importance: Emergency department (ED) returns for mental health conditions pose a major healthcare burden, with 24-27% of patients returning within 30 days. Traditional machine learning models for predicting these returns often lack interpretability for clinical use. Objective: To assess whether integrating large language models (LLMs) with machine learning improves predictive accuracy and clinical interpretability of ED mental health return risk models. Methods: This retrospective cohort study analyzed 42,464 ED visits for 27,904 unique mental health patients at an academic medical center in the Deep South from January 2018 to December 2022. Main Outcomes and Measures: Two primary outcomes were evaluated: (1) 30-day ED return prediction accuracy and (2) model interpretability using a novel LLM-enhanced framework integrating SHAP (SHapley Additive exPlanations) values with clinical knowledge. Results: For chief complaint classification, LLaMA 3 (8B) with 10-shot learning outperformed traditional models (accuracy: 0.882, F1-score: 0.86). In SDoH classification, LLM-based models achieved 0.95 accuracy and 0.96 F1-score, with Alcohol, Tobacco, and Substance Abuse performing best (F1: 0.96-0.89), while Exercise and Home Environment showed lower performance (F1: 0.70-0.67). The LLM-based interpretability framework achieved 99% accuracy in translating model predictions into clinically relevant explanations. LLM-extracted features improved XGBoost AUC from 0.74 to 0.76 and AUC-PR from 0.58 to 0.61. Conclusions and Relevance: Integrating LLMs with machine learning models yielded modest but consistent accuracy gains while significantly enhancing interpretability through automated, clinically relevant explanations. This approach provides a framework for translating predictive analytics into actionable clinical insights.