MDD-LLM: Towards Accuracy Large Language Models for Major Depressive Disorder Diagnosis

📄 arXiv: 2505.00032v1 📥 PDF

作者: Yuyang Sha, Hongxin Pan, Wei Xu, Weiyu Meng, Gang Luo, Xinyu Du, Xiaobing Zhai, Henry H. Y. Tong, Caijuan Shi, Kefeng Li

分类: cs.CL, cs.AI

发布日期: 2025-04-28


💡 一句话要点

提出MDD-LLM,利用微调大语言模型提升重度抑郁症诊断准确率。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 重度抑郁症诊断 大语言模型 微调 表格数据转换 医疗AI

📋 核心要点

  1. 现有MDD诊断方法面临医疗资源分布不均和诊断复杂性的挑战,导致许多地区关注不足。
  2. MDD-LLM利用微调的大语言模型和真实世界数据,构建AI驱动的MDD诊断框架。
  3. 实验表明,MDD-LLM (70B)在准确率和AUC上显著优于现有机器学习和深度学习方法。

📝 摘要(中文)

重度抑郁症(MDD)影响全球超过3亿人,是一个重要的公共健康问题。然而,医疗资源分布不均和诊断方法的复杂性导致许多国家和地区对该疾病的关注不足。本文介绍了一种高性能的MDD诊断工具MDD-LLM,这是一个AI驱动的框架,它利用微调的大语言模型(LLM)和大量的真实世界样本来应对MDD诊断中的挑战。具体来说,我们从英国生物样本库队列中选择了274,348条个人信息,并设计了一种表格数据转换方法,以创建一个大型语料库来训练和评估所提出的方法。为了说明MDD-LLM的优势,我们进行了全面的实验,并针对现有的基于模型的解决方案进行了多次比较分析,使用了多个评估指标。实验结果表明,MDD-LLM (70B)的准确率达到0.8378,AUC达到0.8919 (95% CI: 0.8799 - 0.9040),显著优于现有的用于MDD诊断的机器学习和深度学习框架。鉴于LLM在MDD诊断中的探索有限,我们研究了可能影响我们提出的方法性能的众多因素,例如表格数据转换技术和不同的微调策略。

🔬 方法详解

问题定义:论文旨在解决重度抑郁症(MDD)诊断准确率低的问题。现有方法,如传统的机器学习和深度学习模型,在处理复杂、高维度的医疗数据时表现不足,难以充分利用大规模数据集中的信息,导致诊断性能受限。

核心思路:论文的核心思路是利用预训练的大语言模型(LLM)的强大表征能力和泛化能力,通过微调使其适应MDD诊断任务。LLM能够学习到数据中复杂的模式和关系,从而提高诊断的准确性和可靠性。

技术框架:MDD-LLM框架主要包含以下几个阶段:1) 数据准备:从英国生物样本库(UK Biobank)中提取274,348条个人信息,并进行清洗和预处理。2) 表格数据转换:设计一种表格数据转换方法,将结构化的个人信息转换为LLM可以处理的文本格式。3) 模型微调:使用转换后的数据对预训练的LLM进行微调,使其适应MDD诊断任务。4) 模型评估:使用独立的测试集评估微调后的LLM的性能,并与其他基线方法进行比较。

关键创新:该论文的关键创新在于将大语言模型应用于MDD诊断领域,并提出了一种有效的表格数据转换方法,使得LLM能够处理结构化的医疗数据。与传统的机器学习方法相比,MDD-LLM能够更好地利用大规模数据集中的信息,从而提高诊断准确率。

关键设计:论文中关键的设计包括:1) 表格数据转换方法的设计,需要保证转换后的文本能够保留原始数据的关键信息,并易于LLM理解。2) 微调策略的选择,需要根据具体的数据集和任务进行调整,以获得最佳的性能。3) 实验中使用了70B参数的LLM,并采用了合适的训练策略,以避免过拟合。

📊 实验亮点

MDD-LLM (70B)在MDD诊断任务中取得了显著的性能提升,准确率达到0.8378,AUC达到0.8919 (95% CI: 0.8799 - 0.9040)。相较于现有的机器学习和深度学习框架,MDD-LLM在多个评估指标上均表现出明显的优势,证明了LLM在医疗诊断领域的潜力。

🎯 应用场景

MDD-LLM具有广泛的应用前景,可用于辅助医生进行MDD诊断,尤其是在医疗资源匮乏的地区。该模型可以部署在移动设备或云平台上,为患者提供便捷、准确的诊断服务。此外,该研究为其他医疗领域的AI应用提供了借鉴,例如疾病预测、个性化治疗等。

📄 摘要(原文)

Major depressive disorder (MDD) impacts more than 300 million people worldwide, highlighting a significant public health issue. However, the uneven distribution of medical resources and the complexity of diagnostic methods have resulted in inadequate attention to this disorder in numerous countries and regions. This paper introduces a high-performance MDD diagnosis tool named MDD-LLM, an AI-driven framework that utilizes fine-tuned large language models (LLMs) and extensive real-world samples to tackle challenges in MDD diagnosis. Therefore, we select 274,348 individual information from the UK Biobank cohort to train and evaluate the proposed method. Specifically, we select 274,348 individual records from the UK Biobank cohort and design a tabular data transformation method to create a large corpus for training and evaluating the proposed approach. To illustrate the advantages of MDD-LLM, we perform comprehensive experiments and provide several comparative analyses against existing model-based solutions across multiple evaluation metrics. Experimental results show that MDD-LLM (70B) achieves an accuracy of 0.8378 and an AUC of 0.8919 (95% CI: 0.8799 - 0.9040), significantly outperforming existing machine learning and deep learning frameworks for MDD diagnosis. Given the limited exploration of LLMs in MDD diagnosis, we examine numerous factors that may influence the performance of our proposed method, such as tabular data transformation techniques and different fine-tuning strategies.