Smarter Together: Combining Large Language Models and Small Models for Physiological Signals Visual Inspection

📄 arXiv: 2501.16215v2 📥 PDF

作者: Huayu Li, Zhengxiao He, Xiwen Chen, Ci Zhang, Stuart F. Quan, William D. S. Killgore, Shu-Fen Wung, Chen X. Chen, Geng Yuan, Jin Lu, Ao Li

分类: cs.AI, cs.LG, eess.SP

发布日期: 2025-01-27 (更新: 2025-07-18)


💡 一句话要点

提出ConMIL框架,结合大语言模型和小模型提升生理信号视觉检测精度

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 多示例学习 共形预测 生理信号分析 医学诊断

📋 核心要点

  1. 现有大语言模型在医学时间序列数据分析中存在领域精度不足和微调困难的问题。
  2. ConMIL框架结合了小型专用模型和共形预测,为大语言模型提供可解释和不确定性量化的辅助信息。
  3. 实验表明,ConMIL能显著提升大语言模型在心律失常检测和睡眠分期等任务上的精度。

📝 摘要(中文)

大语言模型(LLMs)在视觉解释医疗时间序列数据方面展现出潜力。然而,其通用设计限制了领域精度,且许多模型的专有性对特定临床数据集的微调构成挑战。小型专用模型(SSMs)在特定任务上表现出色,但缺乏复杂医疗决策所需的广泛推理能力。为解决这些互补的局限性,我们引入了ConMIL,一种新颖的决策支持框架,独特地协同了三个关键组件:(1)一种新的多示例学习(MIL)机制,QTrans-Pooling,旨在识别临床相关的生理信号片段,并提供每类别的可解释性;(2)与MIL集成的共形预测,生成具有统计可靠性保证的校准的集合值输出;(3)一种结构化方法,利用这些可解释且不确定性量化的SSM输出,来增强LLM的视觉检测能力。在心律失常检测和睡眠阶段分类上的实验表明,ConMIL可以提高ChatGPT4.0、Qwen2-VL-7B和MiMo-VL-7B-RL等LLM的准确性。例如,ConMIL支持的Qwen2-VL-7B和MiMo-VL-7B-RL在自信样本上均实现了94.92%和96.82%的精度,在不确定样本上实现了(70.61%和78.02%)/(78.10%和71.98%)的精度,而单独使用LLM时仅为46.13%和13.16%。这些结果表明,将特定任务模型与LLM集成,可能为更可解释和值得信赖的AI驱动的临床决策支持提供有希望的途径。

🔬 方法详解

问题定义:论文旨在解决大语言模型(LLMs)在生理信号视觉检测中,领域知识不足导致精度不高,以及可解释性差的问题。现有方法要么依赖于通用LLMs,缺乏针对特定医学任务的优化,要么使用小型专用模型(SSMs),但缺乏LLMs的推理能力。

核心思路:论文的核心思路是将SSMs的领域知识与LLMs的推理能力相结合。SSMs负责提取和解释生理信号的关键特征,并通过共形预测量化不确定性。然后,将这些信息以结构化的方式提供给LLMs,辅助其进行更准确和可信的决策。

技术框架:ConMIL框架包含三个主要组件:1) QTrans-Pooling:一种新的多示例学习(MIL)机制,用于识别临床相关的生理信号片段,并提供每类别的可解释性。2) 共形预测:与MIL集成,生成具有统计可靠性保证的校准的集合值输出,量化SSM预测的不确定性。3) 结构化信息传递:将SSM的输出(包括预测结果、可解释性信息和不确定性量化)以结构化的方式传递给LLMs,辅助其进行视觉检测。

关键创新:ConMIL的关键创新在于将SSMs的可解释性和不确定性量化与LLMs的推理能力相结合。QTrans-Pooling通过注意力机制实现对关键生理信号片段的识别,并提供每类别的解释。共形预测则为SSM的预测结果提供统计可靠性保证。

关键设计:QTrans-Pooling使用Transformer结构,通过注意力机制学习不同生理信号片段的重要性。共形预测使用留一法(Leave-One-Out)计算p-value,并根据预设的置信水平生成集合值输出。结构化信息传递的设计需要根据具体的LLM进行调整,以确保LLM能够有效地利用SSM提供的信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,ConMIL框架能够显著提升LLM在心律失常检测和睡眠分期任务上的精度。例如,ConMIL支持的Qwen2-VL-7B和MiMo-VL-7B-RL在自信样本上均实现了94.92%和96.82%的精度,相比于单独使用LLM的46.13%和13.16%,提升显著。此外,ConMIL还能提供预测结果的不确定性量化,有助于提高临床决策的可靠性。

🎯 应用场景

该研究成果可应用于多种生理信号的自动分析和诊断,例如心电图、脑电图、睡眠监测等。通过结合领域知识和人工智能,可以辅助医生进行更准确、高效的诊断,并提高医疗决策的可靠性。未来,该方法有望推广到其他医学图像和时间序列数据的分析中。

📄 摘要(原文)

Large language models (LLMs) have shown promising capabilities in visually interpreting medical time-series data. However, their general-purpose design can limit domain-specific precision, and the proprietary nature of many models poses challenges for fine-tuning on specialized clinical datasets. Conversely, small specialized models (SSMs) offer strong performance on focused tasks but lack the broader reasoning needed for complex medical decision-making. To address these complementary limitations, we introduce \ConMIL{} (Conformalized Multiple Instance Learning), a novel decision-support framework distinctively synergizes three key components: (1) a new Multiple Instance Learning (MIL) mechanism, QTrans-Pooling, designed for per-class interpretability in identifying clinically relevant physiological signal segments; (2) conformal prediction, integrated with MIL to generate calibrated, set-valued outputs with statistical reliability guarantees; and (3) a structured approach for these interpretable and uncertainty-quantified SSM outputs to enhance the visual inspection capabilities of LLMs. Our experiments on arrhythmia detection and sleep stage classification demonstrate that \ConMIL{} can enhance the accuracy of LLMs such as ChatGPT4.0, Qwen2-VL-7B, and MiMo-VL-7B-RL. For example, \ConMIL{}-supported Qwen2-VL-7B and MiMo-VL-7B-RL both achieves 94.92% and 96.82% precision on confident samples and (70.61% and 78.02%)/(78.10% and 71.98%) on uncertain samples for the two tasks, compared to 46.13% and 13.16% using the LLM alone. These results suggest that integrating task-specific models with LLMs may offer a promising pathway toward more interpretable and trustworthy AI-driven clinical decision support.