TT-XAI: Trustworthy Clinical Text Explanations via Keyword Distillation and LLM Reasoning

📄 arXiv: 2508.08273v1 📥 PDF

作者: Kristian Miok, Blaz Škrlj, Daniela Zaharie, Marko Robnik Šikonja

分类: cs.CL, cs.LG

发布日期: 2025-07-30


💡 一句话要点

TT-XAI:通过关键词提炼与LLM推理,提升临床文本解释的可信度

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 临床文本解释 关键词提炼 大型语言模型 可信AI 电子健康记录

📋 核心要点

  1. 现有临床语言模型在处理长文本病历时,预测和解释的可信度不足,面临挑战。
  2. TT-XAI框架通过关键词提炼和LLM推理,提升模型性能和解释性,增强临床决策支持。
  3. 实验表明,关键词提炼显著提升BERT分类性能和解释保真度,LLM生成的解释更简洁且临床相关。

📝 摘要(中文)

临床语言模型在处理冗长、非结构化的电子健康记录(EHRs)时,常常难以提供可信的预测和解释。本研究提出了TT-XAI,一个轻量级且有效的框架,通过领域相关的关键词提炼和大型语言模型(LLMs)推理,提高了分类性能和可解释性。首先,研究表明将原始出院记录提炼成简洁的关键词表示,显著提升了BERT分类器的性能,并通过LIME的聚焦变体提高了局部解释的保真度。其次,使用关键词引导的提示来引导LLMs生成链式思考的临床解释,从而产生更简洁且临床相关的推理。通过基于删除的保真度指标、LLaMA-3评分的自我评估以及领域专家的双盲人工研究,评估了解释质量。所有评估方式都一致倾向于关键词增强的方法,证实了提炼增强了机器和人类的可解释性。TT-XAI为临床决策支持中可信、可审计的AI提供了一条可扩展的途径。

🔬 方法详解

问题定义:论文旨在解决临床领域中,现有语言模型在处理电子健康记录(EHRs)时,预测结果和解释缺乏可信度的问题。特别是对于冗长、非结构化的出院记录,模型难以提供准确且易于理解的解释,这限制了其在临床决策支持系统中的应用。现有方法通常直接处理原始文本,忽略了关键信息的提炼,导致模型性能和可解释性受限。

核心思路:论文的核心思路是通过关键词提炼来压缩和聚焦输入文本,从而提高模型的性能和可解释性。具体来说,首先从原始出院记录中提取关键的医学术语和概念,形成简洁的关键词表示。然后,利用这些关键词来引导大型语言模型(LLMs)进行推理,生成更简洁、更临床相关的解释。这种方法旨在模拟医生在诊断过程中提取关键信息并进行推理的过程。

技术框架:TT-XAI框架主要包含两个阶段:关键词提炼和LLM推理。在关键词提炼阶段,使用领域相关的知识和技术(具体方法未知)从原始出院记录中提取关键词。在LLM推理阶段,使用关键词引导的提示(prompt)来引导LLMs生成链式思考的临床解释。整个框架旨在提高分类性能和可解释性。

关键创新:该论文的关键创新在于将关键词提炼与LLM推理相结合,用于生成可信的临床文本解释。与直接使用原始文本进行建模的方法相比,TT-XAI通过关键词提炼来聚焦关键信息,从而提高模型的性能和可解释性。此外,使用关键词引导的提示来引导LLMs进行推理,可以生成更简洁、更临床相关的解释。

关键设计:论文中关于关键词提取的具体方法和LLM prompt的设计细节未知。论文提到使用LIME的聚焦变体来评估局部解释的保真度,表明可能对LIME算法进行了修改,使其更适合评估关键词表示的解释性。此外,论文使用LLaMA-3进行自我评估,表明可能使用了LLaMA-3的评分功能来评估生成的解释的质量。

🖼️ 关键图片

fig_0
img_1

📊 实验亮点

实验结果表明,关键词提炼显著提升了BERT分类器的性能,并提高了局部解释的保真度。此外,通过领域专家的双盲人工研究,证实了关键词增强的方法能够生成更简洁、更临床相关的解释,从而提高了人类的可解释性。所有评估方式都一致倾向于关键词增强的方法。

🎯 应用场景

TT-XAI框架可应用于临床决策支持系统,帮助医生更好地理解和信任AI模型的预测结果。通过提供可信、可审计的解释,该框架可以促进AI技术在医疗领域的应用,提高诊断效率和准确性,并最终改善患者的治疗效果。未来,该框架可以扩展到其他医疗领域,例如病理报告分析和药物研发。

📄 摘要(原文)

Clinical language models often struggle to provide trustworthy predictions and explanations when applied to lengthy, unstructured electronic health records (EHRs). This work introduces TT-XAI, a lightweight and effective framework that improves both classification performance and interpretability through domain-aware keyword distillation and reasoning with large language models (LLMs). First, we demonstrate that distilling raw discharge notes into concise keyword representations significantly enhances BERT classifier performance and improves local explanation fidelity via a focused variant of LIME. Second, we generate chain-of-thought clinical explanations using keyword-guided prompts to steer LLMs, producing more concise and clinically relevant reasoning. We evaluate explanation quality using deletion-based fidelity metrics, self-assessment via LLaMA-3 scoring, and a blinded human study with domain experts. All evaluation modalities consistently favor the keyword-augmented method, confirming that distillation enhances both machine and human interpretability. TT-XAI offers a scalable pathway toward trustworthy, auditable AI in clinical decision support.