CANDLE: A Cross-Modal Agentic Knowledge Distillation Framework for Interpretable Sarcopenia Diagnosis

📄 arXiv: 2507.21179v2 📥 PDF

作者: Yuqi Jin, Zhenhao Shuai, Zihan Hu, Weiteng Zhang, Weihao Xie, Jianwei Shuai, Xian Shen, Zhen Feng

分类: cs.LG, cs.AI

发布日期: 2025-07-26 (更新: 2025-09-24)

备注: 11 pages, 4 figures, 5 tables


💡 一句话要点

CANDLE:一种用于可解释性肌少症诊断的跨模态Agent知识蒸馏框架

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 知识蒸馏 大型语言模型 可解释性 强化学习 肌少症诊断 跨模态学习 医疗诊断

📋 核心要点

  1. 传统机器学习模型缺乏语义广度,大型语言模型可解释性差,现有集成策略较浅,难以有效融合二者优势。
  2. CANDLE框架利用强化学习引导LLM学习TML模型(XGBoost)的SHAP值,提取结构化知识,提升LLM推理能力。
  3. 该框架通过知识蒸馏,在肌少症诊断任务中,在保证可解释性的前提下,提高了预测准确性和决策一致性。

📝 摘要(中文)

背景与目的:大型语言模型(LLMs)通过学习大量的文本和网络数据,展现了卓越的泛化和迁移能力。它们的语义表示能够实现跨任务的知识迁移和推理,为数据稀缺和异构领域(如临床医学)提供了有希望的机会。然而,在肌少症等诊断任务中,仍然存在主要挑战:可解释性、透明度和部署效率。传统机器学习(TML)模型提供稳定的性能和特征级别的归因,确保可追溯和可审计的决策逻辑,但缺乏语义广度。相反,LLMs能够实现灵活的推理,但通常作为不透明的预测器。现有的集成策略仍然很浅,很少将TML的结构化推理嵌入到LLM推理中。方法:以肌少症诊断为案例研究,从基线XGBoost模型中提取SHapley Additive exPlanations (SHAP),并将其转换为与LLM兼容的结构化表示。一种actor-critic强化学习(RL)策略引导LLM对这些基于SHAP的输入进行推理,产生校准的理由和改进的决策规则。将提炼的推理整合到结构化的知识库中,并通过检索增强生成(RAG)进行基于案例的推理。结论:通过将SHAP导出的统计证据与强化训练的LLM推理相结合,CANDLE缓解了可解释性与性能之间的权衡,提高了预测准确性,并保持了高度的决策一致性。该框架为TML模型的知识资产化提供了一种可扩展的方法,从而在肌少症和可能更广泛的医学领域中实现可解释、可重现且与临床对齐的决策支持。

🔬 方法详解

问题定义:现有方法在肌少症诊断等医疗领域面临可解释性和性能之间的权衡。传统机器学习模型虽然可解释性好,但缺乏语义理解能力;大型语言模型虽然语义理解能力强,但通常作为黑盒预测器,缺乏透明度。如何将两者的优势结合,实现既准确又可解释的诊断是亟待解决的问题。

核心思路:CANDLE框架的核心思路是利用知识蒸馏,将传统机器学习模型(如XGBoost)的知识迁移到大型语言模型中。具体来说,通过SHAP值提取XGBoost模型的特征重要性,并将其转化为LLM可以理解的结构化表示。然后,利用强化学习训练LLM,使其能够基于这些SHAP值进行推理,从而提高LLM的可解释性和准确性。

技术框架:CANDLE框架主要包含以下几个模块:1) SHAP值提取模块:从训练好的XGBoost模型中提取SHAP值,用于表示特征的重要性。2) 知识表示模块:将SHAP值转换为LLM可以理解的结构化表示,例如文本描述。3) 强化学习模块:使用actor-critic算法训练LLM,使其能够基于SHAP值进行推理,并生成可解释的诊断理由。4) 知识库构建与检索模块:将训练好的LLM的推理过程和决策规则存储到知识库中,并通过检索增强生成(RAG)进行基于案例的推理。

关键创新:CANDLE框架的关键创新在于:1) 提出了一种跨模态的知识蒸馏方法,将传统机器学习模型的知识迁移到大型语言模型中。2) 利用强化学习训练LLM,使其能够基于SHAP值进行推理,从而提高LLM的可解释性和准确性。3) 构建了一个结构化的知识库,用于存储LLM的推理过程和决策规则,并通过RAG进行基于案例的推理。

关键设计:在强化学习模块中,使用了actor-critic算法,其中actor负责生成诊断理由,critic负责评估理由的质量。奖励函数的设计至关重要,需要综合考虑预测准确性、可解释性和决策一致性。此外,知识表示模块的设计也需要仔细考虑,需要选择一种既能表达SHAP值的信息,又能被LLM有效理解的表示方式。具体的参数设置和网络结构在论文中未详细说明,属于未知信息。

📊 实验亮点

具体实验结果在摘要中省略,但结论表明CANDLE框架通过结合SHAP导出的统计证据与强化训练的LLM推理,缓解了可解释性与性能之间的权衡,提高了预测准确性,并保持了高度的决策一致性。该框架为TML模型的知识资产化提供了一种可扩展的方法。

🎯 应用场景

CANDLE框架具有广泛的应用前景,可应用于肌少症诊断、其他疾病诊断、风险评估等医疗领域。该框架能够提供可解释的决策支持,帮助医生进行更准确的诊断和治疗。此外,该框架还可以用于构建智能医疗助手,为患者提供个性化的健康建议。未来,该框架有望在医疗领域发挥更大的作用,提高医疗服务的质量和效率。

📄 摘要(原文)

Background and Aims: Large language models (LLMs) have shown remarkable generalization and transfer capabilities by learning from vast corpora of text and web data. Their semantic representations allow cross-task knowledge transfer and reasoning, offering promising opportunities for data-scarce and heterogeneous domains such as clinical medicine. Yet, in diagnostic tasks like sarcopenia, major challenges remain: interpretability, transparency, and deployment efficiency. Traditional machine learning (TML) models provide stable performance and feature-level attribution, ensuring traceable and auditable decision logic, but lack semantic breadth. Conversely, LLMs enable flexible inference but often function as opaque predictors. Existing integration strategies remain shallow, rarely embedding the structured reasoning of TML into LLM inference. Methods: Using sarcopenia diagnosis as a case study, SHapley Additive exPlanations (SHAP) were extracted from a baseline XGBoost model and transformed into structured, LLM-compatible representations. An actor-critic reinforcement learning (RL) strategy guided the LLM to reason over these SHAP-based inputs, producing calibrated rationales and refined decision rules. The distilled reasoning was consolidated into a structured knowledge repository and deployed via retrieval-augmented generation (RAG) for case-based inference. Results: (Omitted here.) Conclusion: By coupling SHAP-derived statistical evidence with reinforcement-trained LLM reasoning, CANDLE mitigates the interpretability-performance trade-off, enhances predictive accuracy, and preserves high decision consistency. The framework offers a scalable approach to knowledge assetization of TML models, enabling interpretable, reproducible, and clinically aligned decision support in sarcopenia and potentially broader medical domains.