Automated ICD Classification of Psychiatric Diagnoses: From Classical NLP to Large Language Models

作者: Fernando Ortega, Raúl Lara-Cabrera, Jorge Dueñas-Lerín, Alejandro de la Torre-Luque, Mercé Salvador Robert, Enrique Baca-García

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-20

💡 一句话要点

利用大型语言模型自动进行精神疾病ICD分类

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 精神科诊断 ICD分类 自然语言处理 大型语言模型 文本分类

📋 核心要点

精神科诊断编码工作繁重，现有方法难以有效处理自由文本描述。
利用大型语言模型，通过微调来学习文本描述与ICD代码之间的映射关系。
实验表明，微调后的e5_large模型在精神科诊断分类任务上取得了显著的性能提升。

📝 摘要（中文）

精神健康已成为全球优先事项，导致临床诊断编码方面存在巨大的行政负担。本研究旨在通过使用自然语言处理（NLP）和机器学习（ML）技术将自由文本描述映射到国际疾病分类（ICD），从而实现精神诊断分析的自动化。研究利用包含145,513个西班牙语精神科描述的专门数据集，评估了各种文本表示范式，从经典的基于频率的模型（BoW、TF-IDF）到最先进的大型语言模型（LLM），如e5_large、BioLORD和Llama-3-8B。结果表明，基于Transformer的嵌入通过捕获隐式语义线索和细微的医学术语，始终优于传统方法。通过端到端微调，e5_large模型实现了最高的性能，F1_micro得分为0.866。这项研究表明，将LLM应用于特定的临床命名法对于克服“长尾”标签分布和精神科话语的固有模糊性至关重要。

🔬 方法详解

问题定义：论文旨在解决精神科诊断的自动ICD分类问题。现有方法，如基于频率的模型（BoW、TF-IDF），无法有效捕捉精神科文本中复杂的语义信息和医学术语，导致分类精度较低。此外，精神科诊断数据通常存在“长尾”分布，即某些诊断类别的样本数量远少于其他类别，这给模型的训练带来了挑战。

核心思路：论文的核心思路是利用大型语言模型（LLM）强大的语义理解能力，通过微调的方式，使其适应精神科诊断分类任务。LLM预训练阶段学习了丰富的语言知识，能够更好地捕捉文本中的语义信息和上下文关系。通过微调，LLM可以学习到文本描述与ICD代码之间的映射关系，从而实现自动分类。

技术框架：整体框架包括数据预处理、模型选择与微调、以及性能评估三个主要阶段。首先，对西班牙语精神科描述文本进行清洗和标准化。然后，选择一系列文本表示模型，包括传统的BoW、TF-IDF以及LLM（e5_large、BioLORD、Llama-3-8B）。最后，使用专门的精神科数据集对LLM进行微调，并使用F1_micro等指标评估模型的性能。

关键创新：论文的关键创新在于将大型语言模型应用于精神科诊断的自动ICD分类，并证明了其优于传统方法的性能。此外，论文还强调了针对特定临床命名法微调LLM的重要性，这对于克服“长尾”标签分布和精神科话语的固有模糊性至关重要。

关键设计：论文使用了端到端微调的方式训练e5_large模型。具体来说，将文本描述输入到e5_large模型中，得到文本的嵌入表示，然后使用一个线性分类器将嵌入表示映射到ICD代码。损失函数采用交叉熵损失函数，优化器采用AdamW优化器。实验中，对e5_large模型进行了充分的微调，以使其能够更好地适应精神科诊断分类任务。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于Transformer的嵌入方法（如e5_large）始终优于传统的BoW和TF-IDF方法。其中，通过端到端微调的e5_large模型取得了最佳性能，F1_micro得分为0.866，显著优于其他模型。这表明，大型语言模型在处理复杂的精神科文本分类任务中具有巨大的潜力。

🎯 应用场景

该研究成果可应用于医疗机构，实现精神科诊断的自动编码，减轻医务人员的行政负担，提高工作效率。此外，该技术还可用于辅助临床决策，例如，通过分析患者的病历文本，自动推荐可能的诊断结果，为医生提供参考。未来，该技术有望推广到其他医学领域，实现更广泛的临床应用。

📄 摘要（原文）

Mental health has become a global priority, leading to a massive administrative burden in the coding of clinical diagnoses. This study proposes the automation of psychiatric diagnostic analysis by mapping free-text descriptions to the International Classification of Diseases (ICD) using Natural Language Processing (NLP) and Machine Learning (ML) techniques. Utilizing a specialized dataset of 145,513 Spanish psychiatric descriptions, various text representation paradigms were evaluated, ranging from classical frequency-based models (BoW, TF-IDF) to state-of-the-art Large Language Models (LLMs) such as e5_large, BioLORD, and Llama-3-8B. Results indicate that transformer-based embeddings consistently outperform traditional methods by capturing implicit semantic cues and nuanced medical terminology. The e5_large model, through end-to-end fine-tuning, achieved the highest performance with a $F1_{micro}$ score of 0.866. This research demonstrates that adapting LLMs to specific clinical nomenclature is essential for overcoming the challenges of ``long-tail'' label distributions and the inherent ambiguity of psychiatric discourse.

Automated ICD Classification of Psychiatric Diagnoses: From Classical NLP to Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理