MDD-Thinker: Towards Large Reasoning Models for Major Depressive Disorder Diagnosis

作者: Yuyang Sha, Hongxin Pan, Gang Luo, Caijuan Shi, Jing Wang, Kefeng Li

分类: cs.LG, math.NA

发布日期: 2025-09-29

💡 一句话要点

MDD-Thinker：面向重度抑郁症诊断的推理增强大语言模型

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 重度抑郁症诊断 大型语言模型 监督微调 强化学习 推理增强 精神病学 临床数据

📋 核心要点

现有MDD诊断方法依赖主观评估，缺乏整合多模态临床信息的能力，限制了诊断的准确性和客观性。
MDD-Thinker通过结合监督微调（SFT）和强化学习（RL），增强LLM的推理能力和可解释性，从而提升诊断性能。
实验结果表明，MDD-Thinker在准确率和F1分数上显著优于传统方法和通用LLM，并在计算效率上具有优势。

📝 摘要（中文）

重度抑郁症（MDD）是全球致残的主要原因。目前的诊断方法通常依赖主观评估，缺乏整合多模态临床信息的能力。大型语言模型（LLM）有望通过高级推理提高诊断准确性，但面临可解释性、幻觉和依赖合成数据等挑战。我们开发了MDD-Thinker，这是一个基于LLM的诊断框架，它集成了监督微调（SFT）和强化学习（RL），以增强推理能力和可解释性。使用英国生物样本库数据集，我们生成了40,000个推理样本，并补充了来自公开心理健康数据集的10,000个样本。该模型在这些推理语料库上进行了微调，并针对机器学习、深度学习和最先进的LLM基线评估了其诊断和推理性能。MDD-Thinker实现了0.8268的准确率和0.8081的F1分数，显著优于传统的基线（如SVM和MLP）以及通用LLM。结合SFT和RL产生了最大的改进，准确率相对提高了29.0%，F1分数提高了38.1%，AUC提高了34.8%。此外，该模型表现出与更大的LLM相当的推理性能，同时保持了计算效率。这项研究提出了第一个在大型真实世界临床数据上训练的、推理增强的MDD诊断LLM框架。通过集成SFT和RL，MDD-Thinker平衡了准确性、可解释性和效率，为智能精神病学诊断提供了一种可扩展的方法。这些发现表明，面向推理的LLM可以为MDD检测提供临床上可靠的支持，并可能为心理健康护理中的更广泛应用提供信息。

🔬 方法详解

问题定义：论文旨在解决重度抑郁症（MDD）诊断中，现有方法依赖主观评估、难以整合多模态临床信息的问题。现有方法的痛点在于诊断准确性不足，且缺乏可解释性，难以提供可靠的临床决策支持。

核心思路：论文的核心思路是构建一个推理增强的大语言模型（LLM），通过监督微调（SFT）和强化学习（RL）相结合的方式，提升模型在MDD诊断任务上的推理能力和可解释性。通过让模型学习推理过程，使其能够更好地理解临床数据并做出准确判断。

技术框架：MDD-Thinker的整体框架包含以下几个主要阶段：1) 数据准备：利用UK Biobank数据集和公开心理健康数据集，生成包含推理过程的训练样本。2) 监督微调（SFT）：使用生成的推理样本对LLM进行微调，使其初步具备推理能力。3) 强化学习（RL）：利用强化学习进一步优化模型的推理策略，提高诊断准确性和可解释性。4) 评估：在测试集上评估模型的诊断和推理性能，并与基线方法进行比较。

关键创新：该论文最重要的技术创新点在于将监督微调（SFT）和强化学习（RL）相结合，用于训练面向MDD诊断的LLM。这种方法不仅提高了模型的诊断准确性，还增强了模型的可解释性，使其能够提供更可靠的临床决策支持。与现有方法相比，MDD-Thinker更注重模型的推理能力，使其能够更好地理解临床数据并做出准确判断。

关键设计：在数据生成方面，论文设计了特定的prompt模板，引导模型生成包含推理过程的文本。在强化学习方面，论文设计了奖励函数，鼓励模型生成准确且可解释的诊断结果。具体的参数设置和网络结构细节在论文中未详细说明，属于未知信息。

📊 实验亮点

MDD-Thinker在MDD诊断任务上取得了显著的性能提升，准确率达到0.8268，F1分数达到0.8081，显著优于传统的机器学习方法（如SVM和MLP）以及通用LLM。与仅使用SFT的模型相比，结合SFT和RL的模型在准确率上相对提高了29.0%，F1分数提高了38.1%，AUC提高了34.8%。此外，MDD-Thinker在保持计算效率的同时，表现出与更大的LLM相当的推理性能。

🎯 应用场景

MDD-Thinker具有广泛的应用前景，可用于辅助精神科医生进行MDD诊断，提高诊断效率和准确性。该模型还可以应用于远程医疗、心理健康咨询等领域，为患者提供更便捷、个性化的服务。未来，该研究有望推动智能精神病学的发展，为心理健康护理提供更有效的工具和方法。

📄 摘要（原文）

Background Major depressive disorder (MDD) is a leading cause of global disability, yet current diagnostic approaches often rely on subjective assessments and lack the ability to integrate multimodal clinical information. Large language models (LLMs) hold promise for enhancing diagnostic accuracy through advanced reasoning but face challenges in interpretability, hallucination, and reliance on synthetic data. Methods We developed MDD-Thinker, an LLM-based diagnostic framework that integrates supervised fine-tuning (SFT) with reinforcement learning (RL) to strengthen reasoning ability and interpretability. Using the UK Biobank dataset, we generated 40,000 reasoning samples, supplemented with 10,000 samples from publicly available mental health datasets. The model was fine-tuned on these reasoning corpora, and its diagnostic and reasoning performance was evaluated against machine learning, deep learning, and state-of-the-art LLM baselines. Findings MDD-Thinker achieved an accuracy of 0.8268 and F1-score of 0.8081, significantly outperforming traditional baselines such as SVM and MLP, as well as general-purpose LLMs. Incorporating both SFT and RL yielded the greatest improvements, with relative gains of 29.0% in accuracy, 38.1% in F1-score, and 34.8% in AUC. Moreover, the model demonstrated comparable reasoning performance compared to much larger LLMs, while maintaining computational efficiency. Interpretation This study presents the first reasoning-enhanced LLM framework for MDD diagnosis trained on large-scale real-world clinical data. By integrating SFT and RL, MDD-Thinker balances accuracy, interpretability, and efficiency, offering a scalable approach for intelligent psychiatric diagnostics. These findings suggest that reasoning-oriented LLMs can provide clinically reliable support for MDD detection and may inform broader applications in mental health care.

MDD-Thinker: Towards Large Reasoning Models for Major Depressive Disorder Diagnosis

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理