Empathy by Design: Aligning Large Language Models for Healthcare Dialogue

📄 arXiv: 2512.06097v1 📥 PDF

作者: Emre Umucu, Guillermina Solis, Leon Garza, Emilia Rivas, Beatrice Lee, Anantaa Kotal, Aritran Piplai

分类: cs.CL, cs.AI

发布日期: 2025-12-05

🔗 代码/项目: GITHUB


💡 一句话要点

提出基于DPO的对齐框架,提升大型语言模型在医疗对话中的共情能力。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 医疗对话 直接偏好优化 共情能力 事实准确性

📋 核心要点

  1. 现有大型语言模型在医疗场景中存在事实性错误和缺乏共情能力的问题,限制了其在医疗保健领域的应用。
  2. 论文提出基于直接偏好优化(DPO)的对齐框架,通过人类偏好数据微调模型,提升其共情能力和事实准确性。
  3. 实验结果表明,该方法在语义对齐、事实准确性和人本评估方面均优于基线模型和商业医疗对话系统。

📝 摘要(中文)

通用大型语言模型(LLMs)在生成和推理方面表现出色,但在医疗和护理应用中仍存在局限性,主要体现在事实不可靠和缺乏共情沟通。这些缺陷在用户寻求医疗指导或情感支持的敏感场景中构成重大风险,尤其对于非专业人士和护理人员。为了解决这些挑战,我们提出了一种基于直接偏好优化(DPO)的对齐框架,旨在提高护理人员-患者对话的事实正确性、语义连贯性以及以人为本的品质,如共情、礼貌和简洁。我们的方法使用成对偏好数据微调领域自适应的LLMs,其中首选响应反映支持性和易于理解的沟通风格,而拒绝响应则代表指令性或过于专业的技术语气。这种直接优化方法比传统的基于强化学习的对齐方法更有效地使模型输出与人类偏好对齐。跨多个开放和专有LLMs的实证评估表明,与基线和商业替代方案(如Google医疗对话系统)相比,我们DPO调优的模型实现了更高的语义对齐、改进的事实准确性和更强的人本评估分数。这些改进表明,基于偏好的对齐为开发可信、共情和临床知情的AI助手提供了一条可扩展且透明的途径,以用于护理人员和医疗保健沟通。我们的开源代码可在https://github.com/LeonG19/Empathy-by-Design 获取。

🔬 方法详解

问题定义:现有的大型语言模型(LLMs)在医疗对话中,尤其是在面向非专业人士和护理人员的场景下,存在两个主要问题:一是事实不可靠,可能提供错误的医疗建议;二是缺乏共情能力,无法提供情感支持和理解,导致用户体验不佳。现有方法,如基于强化学习的对齐,效率较低且难以优化。

核心思路:论文的核心思路是利用直接偏好优化(DPO)算法,直接根据人类的偏好数据来调整LLM的参数。DPO避免了传统强化学习中复杂的奖励函数设计和策略迭代过程,通过直接优化模型,使其输出更符合人类对医疗对话的期望,即事实准确、语义连贯、且具有共情能力。

技术框架:该框架主要包含以下几个阶段:1) 领域自适应的LLM:选择或训练一个在医疗领域具有一定知识基础的LLM作为基础模型。2) 构建偏好数据集:收集护理人员-患者对话数据,并标注哪些回复更符合人类偏好(例如,更具共情、更易理解)。3) DPO微调:使用偏好数据集,通过DPO算法微调LLM,使其输出更接近人类偏好的回复。4) 评估:使用多种指标(如事实准确性、语义连贯性、人本评估)评估微调后的模型性能。

关键创新:该论文的关键创新在于将直接偏好优化(DPO)应用于医疗对话领域,以提升LLM的共情能力和事实准确性。与传统的基于强化学习的对齐方法相比,DPO更加高效和稳定,避免了奖励函数设计的困难。此外,论文还强调了在医疗对话中,共情能力的重要性,并设计了相应的评估指标。

关键设计:DPO算法的核心是优化一个目标函数,该函数基于成对偏好数据,鼓励模型生成更受人类偏好的回复。具体来说,对于每一对回复(preferred, rejected),DPO会调整模型参数,使得模型生成preferred回复的概率更高,生成rejected回复的概率更低。损失函数通常基于Bradley-Terry模型,用于建模人类的偏好概率。此外,论文还可能涉及到一些数据增强技术,以扩充偏好数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,基于DPO对齐的LLM在多个指标上优于基线模型和商业医疗对话系统。例如,在人本评估中,DPO调优的模型在共情、礼貌和简洁性方面取得了显著提升。此外,该模型在事实准确性方面也得到了提高,降低了提供错误医疗建议的风险。具体性能数据未在摘要中明确给出,需参考论文正文。

🎯 应用场景

该研究成果可应用于开发智能医疗助手,为患者和护理人员提供个性化的医疗建议和情感支持。这些助手可以帮助缓解医疗资源紧张,提高患者的依从性和满意度,并促进医患之间的有效沟通。未来,该技术有望扩展到其他需要高度信任和共情能力的领域,如心理咨询和教育。

📄 摘要(原文)

General-purpose large language models (LLMs) have demonstrated remarkable generative and reasoning capabilities but remain limited in healthcare and caregiving applications due to two key deficiencies: factual unreliability and a lack of empathetic communication. These shortcomings pose significant risks in sensitive contexts where users, particularly non-professionals and caregivers, seek medically relevant guidance or emotional reassurance. To address these challenges, we introduce a Direct Preference Optimization (DPO)-based alignment framework designed to improve factual correctness, semantic coherence, and human-centric qualities such as empathy, politeness, and simplicity in caregiver-patient dialogues. Our approach fine-tunes domain-adapted LLMs using pairwise preference data, where preferred responses reflect supportive and accessible communication styles while rejected ones represent prescriptive or overly technical tones. This direct optimization method aligns model outputs with human preferences more efficiently than traditional reinforcement-learning-based alignment. Empirical evaluations across multiple open and proprietary LLMs show that our DPO-tuned models achieve higher semantic alignment, improved factual accuracy, and stronger human-centric evaluation scores compared to baseline and commercial alternatives such as Google medical dialogue systems. These improvements demonstrate that preference-based alignment offers a scalable and transparent pathway toward developing trustworthy, empathetic, and clinically informed AI assistants for caregiver and healthcare communication. Our open-source code is available at: https://github.com/LeonG19/Empathy-by-Design