NurValues: Real-World Nursing Values Evaluation for Large Language Models in Clinical Context
作者: Ben Yao, Qiuchi Li, Yazhou Zhang, Siyu Yang, Bohan Zhang, Prayag Tiwari, Jing Qin
分类: cs.CL
发布日期: 2025-05-13
备注: 25 pages, 10 figures, 16 tables
🔗 代码/项目: HUGGINGFACE
💡 一句话要点
NurValues:构建临床情境下大型语言模型护理价值观对齐评估基准
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 护理价值观 大型语言模型 临床决策支持 伦理对齐 基准数据集
📋 核心要点
- 现有方法缺乏针对临床护理场景下大型语言模型价值观对齐的专门评估基准,难以保证LLM在医疗领域的安全可靠应用。
- 本研究构建了NurValues基准,包含真实世界护理行为实例和LLM生成的反事实数据,并设计了Easy和Hard两种难度级别的数据集。
- 实验结果表明,DeepSeek-V3和Claude 3.5 Sonnet在不同难度级别的数据集上表现出色,并验证了上下文学习对价值观对齐的有效性。
📝 摘要(中文)
本研究提出了首个护理价值观对齐的基准,包含从国际护理规范中提炼的五个核心价值观维度:利他主义、人类尊严、正直、公正和专业精神。该基准包含1100个真实世界护理行为实例,这些实例通过为期五个月的纵向现场研究,在三个不同等级的医院收集。这些实例由五位临床护士进行标注,并使用LLM生成的具有相反伦理极性的反事实数据进行扩充。每个原始案例都与一个价值观对齐版本和一个价值观违反版本配对,从而产生2200个标记实例,构成Easy-Level数据集。为了增加对抗复杂性,每个实例被进一步转换为基于对话的格式,嵌入上下文线索和微妙的误导信号,从而产生Hard-Level数据集。我们评估了23个最先进的LLM在护理价值观对齐方面的表现。研究结果揭示了三个关键见解:(1)DeepSeek-V3在Easy-Level数据集上取得了最高的性能(94.55),而Claude 3.5 Sonnet在Hard-Level数据集上优于其他模型(89.43),显著超过了医学LLM;(2)公正始终是最难评估的护理价值观维度;(3)上下文学习显著提高了对齐效果。这项工作旨在为临床环境中价值观敏感的LLM开发奠定基础。数据集和代码可在https://huggingface.co/datasets/Ben012345/NurValues获取。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在临床护理场景中与护理价值观对齐的问题。现有方法缺乏专门的评估基准,无法有效衡量LLM在处理涉及伦理道德的护理问题时的表现,可能导致不安全或不恰当的决策。
核心思路:论文的核心思路是构建一个包含真实世界护理行为实例和LLM生成的反事实数据的基准数据集,用于评估LLM与护理价值观的对齐程度。通过引入不同难度级别的数据集,可以更全面地评估LLM在复杂临床情境下的价值观判断能力。
技术框架:整体框架包括数据收集、数据标注、数据增强和模型评估四个主要阶段。首先,通过纵向现场研究收集真实世界护理行为实例。然后,由临床护士对这些实例进行标注,确定其是否符合特定的护理价值观。接着,使用LLM生成反事实数据,扩充数据集并增加难度。最后,使用构建的基准数据集评估多个LLM的性能。
关键创新:最重要的技术创新点在于构建了一个专门针对护理价值观对齐的评估基准,该基准包含真实世界数据和LLM生成的反事实数据,并设计了不同难度级别的数据集。此外,该研究还深入分析了不同LLM在不同价值观维度上的表现,为后续研究提供了有价值的见解。
关键设计:Easy-Level数据集包含原始案例以及价值观对齐和违反的版本,Hard-Level数据集则将实例转换为基于对话的格式,嵌入上下文线索和误导信号。使用五位临床护士进行标注,确保标注的准确性和可靠性。使用LLM生成反事实数据时,通过控制生成过程,确保反事实数据在伦理极性上与原始数据相反。
🖼️ 关键图片
📊 实验亮点
DeepSeek-V3在Easy-Level数据集上取得了94.55%的准确率,Claude 3.5 Sonnet在Hard-Level数据集上取得了89.43%的准确率,显著优于其他模型,包括专门的医学LLM。研究还发现,公正始终是最难评估的护理价值观维度,而上下文学习可以显著提高LLM的价值观对齐能力。
🎯 应用场景
该研究成果可应用于开发价值观敏感的临床决策支持系统,帮助医护人员做出更符合伦理道德的决策。此外,该基准数据集可用于训练和评估LLM,提高其在医疗领域的安全性和可靠性,并促进医疗人工智能的健康发展。
📄 摘要(原文)
This work introduces the first benchmark for nursing value alignment, consisting of five core value dimensions distilled from international nursing codes: Altruism, Human Dignity, Integrity, Justice, and Professionalism. The benchmark comprises 1,100 real-world nursing behavior instances collected through a five-month longitudinal field study across three hospitals of varying tiers. These instances are annotated by five clinical nurses and then augmented with LLM-generated counterfactuals with reversed ethic polarity. Each original case is paired with a value-aligned and a value-violating version, resulting in 2,200 labeled instances that constitute the Easy-Level dataset. To increase adversarial complexity, each instance is further transformed into a dialogue-based format that embeds contextual cues and subtle misleading signals, yielding a Hard-Level dataset. We evaluate 23 state-of-the-art (SoTA) LLMs on their alignment with nursing values. Our findings reveal three key insights: (1) DeepSeek-V3 achieves the highest performance on the Easy-Level dataset (94.55), where Claude 3.5 Sonnet outperforms other models on the Hard-Level dataset (89.43), significantly surpassing the medical LLMs; (2) Justice is consistently the most difficult nursing value dimension to evaluate; and (3) in-context learning significantly improves alignment. This work aims to provide a foundation for value-sensitive LLMs development in clinical settings. The dataset and the code are available at https://huggingface.co/datasets/Ben012345/NurValues.