Aligning Language Models with Clinical Expertise: DPO for Heart Failure Nursing Documentation in Critical Care

📄 arXiv: 2510.05410v1 📥 PDF

作者: Junyi Fan, Li Sun, Negin Ashrafi, Kamiar Alaei, Maryam Pishgar

分类: cs.CL, cs.LG

发布日期: 2025-10-06


💡 一句话要点

利用DPO对Mistral-7B进行微调,提升ICU中护理文档的心力衰竭专业性。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 直接偏好优化 DPO 心力衰竭 护理文档 自然语言处理 临床语言模型 重症监护 Mistral-7B

📋 核心要点

  1. ICU护理文档质量参差不齐,存在术语不一致、非正式风格等问题,阻碍了临床信息的有效利用。
  2. 论文采用直接偏好优化(DPO)方法,利用专家偏好数据微调Mistral-7B模型,使其更符合临床专业标准。
  3. 实验结果表明,DPO显著提升了文档的BLEU、BERTScore等指标,并获得了专家在多个维度上的积极评价。

📝 摘要(中文)

本研究针对重症监护病房(ICU)护理文档中术语不一致、风格非正式和缺乏标准化的问题,特别是在心力衰竭护理方面,应用直接偏好优化(DPO)方法,使用来自MIMIC-III数据库的8838份心力衰竭护理记录和21210个偏好对(由专家验证的GPT输出、模型生成和原始记录生成)来调整Mistral-7B模型。评估结果表明,DPO显著提高了文档质量,BLEU提高了84%(0.173到0.318),BERTScore提高了7.6%(0.828到0.891),专家评分在准确性、完整性、逻辑一致性、可读性和结构清晰度方面均有所提高。结果表明,DPO可以将轻量级临床语言模型与专家标准对齐,支持电子健康记录系统中保护隐私的AI辅助文档,从而减轻管理负担并提高ICU患者的安全性。

🔬 方法详解

问题定义:论文旨在解决ICU护理文档质量不高的问题,尤其是在心力衰竭护理方面。现有方法生成的文档存在术语不一致、非正式风格、缺乏标准化等问题,难以有效支持临床决策。这些问题源于缺乏高质量的训练数据和有效的模型对齐方法。

核心思路:论文的核心思路是利用直接偏好优化(DPO)算法,将语言模型的输出与专家偏好对齐。DPO通过直接优化奖励函数,避免了传统强化学习方法中复杂的策略梯度估计过程,从而更稳定、更高效地训练模型。通过使用专家验证的GPT输出、模型生成和原始记录构建偏好对,模型能够学习到高质量的文档生成策略。

技术框架:整体框架包括数据准备、模型训练和评估三个阶段。数据准备阶段,从MIMIC-III数据库中提取心力衰竭护理记录,并利用专家知识生成偏好对。模型训练阶段,使用DPO算法微调Mistral-7B模型。评估阶段,采用BLEU、ROUGE、BERTScore等自动指标以及专家人工评估来衡量文档质量。

关键创新:论文的关键创新在于将DPO算法应用于临床护理文档生成任务,并利用专家偏好数据进行模型对齐。与传统的监督学习方法相比,DPO能够更好地捕捉专家的隐式知识和偏好,从而生成更符合临床标准的文档。此外,论文还探索了如何利用GPT等大型语言模型辅助生成偏好数据,降低了人工标注的成本。

关键设计:论文使用了Mistral-7B作为基础语言模型,并采用DPO算法进行微调。DPO算法的关键在于偏好对的构建,论文使用了专家验证的GPT输出、模型生成和原始记录构建偏好对。在训练过程中,DPO算法通过优化奖励函数,使得模型更倾向于生成专家偏好的文档。具体的参数设置和损失函数细节在论文中进行了详细描述(未知)。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,DPO方法显著提升了文档质量。BLEU指标提高了84%(0.173到0.318),BERTScore提高了7.6%(0.828到0.891)。专家评估结果显示,在准确性、完整性、逻辑一致性、可读性和结构清晰度等方面,DPO模型生成的文档均优于基线模型,分别提升了14.4、14.5、14.1、11.1和6.0个点。

🎯 应用场景

该研究成果可应用于电子健康记录(EHR)系统,为ICU护理人员提供AI辅助文档生成工具,减轻其行政负担,提高文档质量和效率。通过生成更准确、完整、规范的护理文档,可以提升临床决策的质量,从而改善患者安全和治疗效果。未来,该方法可推广到其他临床领域,实现更广泛的AI辅助医疗应用。

📄 摘要(原文)

Nursing documentation in intensive care units (ICUs) provides essential clinical intelligence but often suffers from inconsistent terminology, informal styles, and lack of standardization, challenges that are particularly critical in heart failure care. This study applies Direct Preference Optimization (DPO) to adapt Mistral-7B, a locally deployable language model, using 8,838 heart failure nursing notes from the MIMIC-III database and 21,210 preference pairs derived from expert-verified GPT outputs, model generations, and original notes. Evaluation across BLEU, ROUGE, BERTScore, Perplexity, and expert qualitative assessments demonstrates that DPO markedly enhances documentation quality. Specifically, BLEU increased by 84% (0.173 to 0.318), BERTScore improved by 7.6% (0.828 to 0.891), and expert ratings rose across accuracy (+14.4 points), completeness (+14.5 points), logical consistency (+14.1 points), readability (+11.1 points), and structural clarity (+6.0 points). These results indicate that DPO can align lightweight clinical language models with expert standards, supporting privacy-preserving, AI-assisted documentation within electronic health record systems to reduce administrative burden and improve ICU patient safety.