Leveraging large language models and traditional machine learning ensembles for ADHD detection from narrative transcripts

📄 arXiv: 2505.21324v1 📥 PDF

作者: Yuxin Zhu, Yuting Guo, Noah Marchuck, Abeed Sarker, Yun Wang

分类: cs.CL

发布日期: 2025-05-27


💡 一句话要点

提出融合LLM与传统ML集成的框架,用于从叙事文本中检测ADHD。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: ADHD检测 大型语言模型 机器学习集成 叙事文本分析 精神病学文本分类

📋 核心要点

  1. 精神科叙事数据具有细微的语言和上下文复杂性,现有方法难以充分利用多模型特性。
  2. 提出集成LLaMA3、RoBERTa和SVM的集成框架,通过多数投票提高ADHD诊断的鲁棒性。
  3. 实验结果表明,集成模型F1值达到0.71,优于单个模型,并在召回率上有所提升。

📝 摘要(中文)

本文提出了一种集成了大型语言模型(LLM)和传统监督机器学习(ML)技术的集成框架,用于自动分类注意缺陷多动障碍(ADHD)的诊断(二元分类)。该方法结合了三个互补的模型:LLaMA3(一个捕获长程语义结构的开源LLM)、RoBERTa(一个在标记的临床叙事上微调的预训练Transformer模型)以及一个使用基于TF-IDF的词汇特征训练的支持向量机(SVM)分类器。这些模型通过多数投票机制进行聚合,以增强预测的鲁棒性。数据集包含441个实例,其中352个用于训练,89个用于验证。实验结果表明,该集成模型优于单个模型,实现了0.71的F$_1$分数(95% CI: [0.60-0.80])。与表现最佳的单个模型(SVM)相比,该集成模型提高了召回率,同时保持了具有竞争力的精确率。这表明该集成模型在识别ADHD相关语言线索方面具有很强的敏感性。这些发现证明了混合架构的潜力,该架构利用LLM的语义丰富性以及传统监督ML的可解释性和模式识别能力,为鲁棒和可泛化的精神病学文本分类提供了一个新的方向。

🔬 方法详解

问题定义:论文旨在解决从叙事文本中自动检测ADHD的问题。现有方法,特别是单独使用LLM或传统ML模型,可能无法充分捕捉叙事文本中复杂的语义信息和细微的语言特征。单独的LLM可能缺乏在特定领域(如精神病学)的专业知识,而传统的ML模型可能难以捕捉长距离的依赖关系。因此,如何有效地结合两者的优势是亟待解决的问题。

核心思路:论文的核心思路是将LLM的语义理解能力与传统ML模型的模式识别能力相结合,构建一个混合的集成模型。LLM负责捕捉长距离的语义结构,RoBERTa负责利用临床叙事数据进行微调,SVM则利用TF-IDF特征进行词汇级别的分析。通过集成多个模型的预测结果,可以提高模型的鲁棒性和泛化能力。

技术框架:整体框架包含三个主要模块:1) LLaMA3模型,用于提取文本的深层语义特征;2) RoBERTa模型,在临床叙事数据上进行微调,以适应特定领域的语言风格;3) SVM分类器,使用TF-IDF特征进行训练,捕捉词汇级别的模式。这三个模型的输出通过多数投票机制进行集成,最终得到ADHD的诊断结果。

关键创新:该研究的关键创新在于将LLM与传统的监督ML模型集成,用于精神病学文本分类。这种混合架构充分利用了LLM的语义理解能力和传统ML模型的模式识别能力,从而提高了模型的性能和鲁棒性。此外,使用多数投票机制进行模型集成也增强了预测的稳定性。

关键设计:LLaMA3模型采用预训练的权重,并在特定数据集上进行微调。RoBERTa模型同样采用预训练的权重,并在临床叙事数据上进行微调。SVM分类器使用TF-IDF特征进行训练,并采用线性核函数。多数投票机制简单有效,易于实现。具体参数设置未在摘要中详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,集成的模型在ADHD诊断任务中取得了显著的性能提升,F1值达到0.71(95% CI: [0.60-0.80]),优于单个模型。与表现最佳的单个模型(SVM)相比,集成模型在保持竞争力的精确率的同时,提高了召回率,表明其在识别ADHD相关语言线索方面具有更强的敏感性。这验证了混合架构的有效性。

🎯 应用场景

该研究成果可应用于精神健康领域的自动诊断和辅助决策。通过分析患者的叙事文本,可以帮助医生更快速、准确地识别ADHD患者,从而尽早进行干预和治疗。此外,该方法还可以扩展到其他精神疾病的诊断,具有广泛的应用前景。未来,该技术可以集成到电子病历系统中,为临床医生提供实时的诊断支持。

📄 摘要(原文)

Despite rapid advances in large language models (LLMs), their integration with traditional supervised machine learning (ML) techniques that have proven applicability to medical data remains underexplored. This is particularly true for psychiatric applications, where narrative data often exhibit nuanced linguistic and contextual complexity, and can benefit from the combination of multiple models with differing characteristics. In this study, we introduce an ensemble framework for automatically classifying Attention-Deficit/Hyperactivity Disorder (ADHD) diagnosis (binary) using narrative transcripts. Our approach integrates three complementary models: LLaMA3, an open-source LLM that captures long-range semantic structure; RoBERTa, a pre-trained transformer model fine-tuned on labeled clinical narratives; and a Support Vector Machine (SVM) classifier trained using TF-IDF-based lexical features. These models are aggregated through a majority voting mechanism to enhance predictive robustness. The dataset includes 441 instances, including 352 for training and 89 for validation. Empirical results show that the ensemble outperforms individual models, achieving an F$_1$ score of 0.71 (95\% CI: [0.60-0.80]). Compared to the best-performing individual model (SVM), the ensemble improved recall while maintaining competitive precision. This indicates the strong sensitivity of the ensemble in identifying ADHD-related linguistic cues. These findings demonstrate the promise of hybrid architectures that leverage the semantic richness of LLMs alongside the interpretability and pattern recognition capabilities of traditional supervised ML, offering a new direction for robust and generalizable psychiatric text classification.