Automated ICD Classification of Psychiatric Diagnoses: From Classical NLP to Large Language Models

📄 arXiv: 2605.21154v1 📥 PDF

作者: Fernando Ortega, Raúl Lara-Cabrera, Jorge Dueñas-Lerín, Alejandro de la Torre-Luque, Mercé Salvador Robert, Enrique Baca-García

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-05-20


💡 一句话要点

利用大型语言模型自动进行精神疾病ICD分类

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 精神科诊断 ICD分类 自然语言处理 大型语言模型 文本分类

📋 核心要点

  1. 精神科诊断编码工作繁重,现有方法难以有效处理自由文本描述。
  2. 利用大型语言模型,通过微调来学习文本描述与ICD代码之间的映射关系。
  3. 实验表明,微调后的e5_large模型在精神科诊断分类任务上取得了显著的性能提升。

📝 摘要(中文)

精神健康已成为全球优先事项,导致临床诊断编码方面存在巨大的行政负担。本研究旨在通过使用自然语言处理(NLP)和机器学习(ML)技术将自由文本描述映射到国际疾病分类(ICD),从而实现精神诊断分析的自动化。研究利用包含145,513个西班牙语精神科描述的专门数据集,评估了各种文本表示范式,从经典的基于频率的模型(BoW、TF-IDF)到最先进的大型语言模型(LLM),如e5_large、BioLORD和Llama-3-8B。结果表明,基于Transformer的嵌入通过捕获隐式语义线索和细微的医学术语,始终优于传统方法。通过端到端微调,e5_large模型实现了最高的性能,F1_micro得分为0.866。这项研究表明,将LLM应用于特定的临床命名法对于克服“长尾”标签分布和精神科话语的固有模糊性至关重要。

🔬 方法详解

问题定义:论文旨在解决精神科诊断的自动ICD分类问题。现有方法,如基于频率的模型(BoW、TF-IDF),无法有效捕捉精神科文本中复杂的语义信息和医学术语,导致分类精度较低。此外,精神科诊断数据通常存在“长尾”分布,即某些诊断类别的样本数量远少于其他类别,这给模型的训练带来了挑战。

核心思路:论文的核心思路是利用大型语言模型(LLM)强大的语义理解能力,通过微调的方式,使其适应精神科诊断分类任务。LLM预训练阶段学习了丰富的语言知识,能够更好地捕捉文本中的语义信息和上下文关系。通过微调,LLM可以学习到文本描述与ICD代码之间的映射关系,从而实现自动分类。

技术框架:整体框架包括数据预处理、模型选择与微调、以及性能评估三个主要阶段。首先,对西班牙语精神科描述文本进行清洗和标准化。然后,选择一系列文本表示模型,包括传统的BoW、TF-IDF以及LLM(e5_large、BioLORD、Llama-3-8B)。最后,使用专门的精神科数据集对LLM进行微调,并使用F1_micro等指标评估模型的性能。

关键创新:论文的关键创新在于将大型语言模型应用于精神科诊断的自动ICD分类,并证明了其优于传统方法的性能。此外,论文还强调了针对特定临床命名法微调LLM的重要性,这对于克服“长尾”标签分布和精神科话语的固有模糊性至关重要。

关键设计:论文使用了端到端微调的方式训练e5_large模型。具体来说,将文本描述输入到e5_large模型中,得到文本的嵌入表示,然后使用一个线性分类器将嵌入表示映射到ICD代码。损失函数采用交叉熵损失函数,优化器采用AdamW优化器。实验中,对e5_large模型进行了充分的微调,以使其能够更好地适应精神科诊断分类任务。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于Transformer的嵌入方法(如e5_large)始终优于传统的BoW和TF-IDF方法。其中,通过端到端微调的e5_large模型取得了最佳性能,F1_micro得分为0.866,显著优于其他模型。这表明,大型语言模型在处理复杂的精神科文本分类任务中具有巨大的潜力。

🎯 应用场景

该研究成果可应用于医疗机构,实现精神科诊断的自动编码,减轻医务人员的行政负担,提高工作效率。此外,该技术还可用于辅助临床决策,例如,通过分析患者的病历文本,自动推荐可能的诊断结果,为医生提供参考。未来,该技术有望推广到其他医学领域,实现更广泛的临床应用。

📄 摘要(原文)

Mental health has become a global priority, leading to a massive administrative burden in the coding of clinical diagnoses. This study proposes the automation of psychiatric diagnostic analysis by mapping free-text descriptions to the International Classification of Diseases (ICD) using Natural Language Processing (NLP) and Machine Learning (ML) techniques. Utilizing a specialized dataset of 145,513 Spanish psychiatric descriptions, various text representation paradigms were evaluated, ranging from classical frequency-based models (BoW, TF-IDF) to state-of-the-art Large Language Models (LLMs) such as e5_large, BioLORD, and Llama-3-8B. Results indicate that transformer-based embeddings consistently outperform traditional methods by capturing implicit semantic cues and nuanced medical terminology. The e5_large model, through end-to-end fine-tuning, achieved the highest performance with a $F1_{micro}$ score of 0.866. This research demonstrates that adapting LLMs to specific clinical nomenclature is essential for overcoming the challenges of ``long-tail'' label distributions and the inherent ambiguity of psychiatric discourse.