Reasoning Is Not All You Need: Examining LLMs for Multi-Turn Mental Health Conversations
作者: Mohit Chandra, Siddharth Sriraman, Harneet Singh Khanuja, Yiqiao Jin, Munmun De Choudhury
分类: cs.CL
发布日期: 2025-05-26 (更新: 2025-05-28)
备注: 34 pages, 5 figures, 30 tables
💡 一句话要点
提出MedAgent框架与MHSD数据集,评估LLM在多轮心理健康对话中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 心理健康对话 多轮对话 合成数据生成 评估框架
📋 核心要点
- 现有LLM评估框架侧重诊断准确率,忽略了患者个性化需求和多轮对话能力,无法全面评估LLM在心理健康领域的应用。
- 论文提出MedAgent框架,用于合成生成真实的多轮心理健康对话,并构建了包含2200多个对话的MHSD数据集。
- 实验表明,即使是先进的LLM在以患者为中心的沟通和高级诊断方面表现不佳,且性能受患者角色和对话轮数影响。
📝 摘要(中文)
由于心理健康医疗资源有限以及大型语言模型(LLMs)能力的提升,越来越多的人开始使用LLMs来满足心理健康需求。然而,LLMs在多轮心理健康对话中的能力尚未得到充分研究。现有的评估框架通常侧重于诊断准确率和胜率,忽略了与患者特定目标、价值观和个性相符的有意义的对话。为了解决这个问题,我们引入了MedAgent,这是一个用于合成生成真实的多轮心理健康理解对话的新框架,并使用它创建了心理健康理解对话(MHSD)数据集,其中包含超过2200个患者-LLM对话。此外,我们提出了MultiSenseEval,这是一个整体框架,用于使用以人为本的标准评估LLMs在医疗保健环境中进行多轮对话的能力。我们的研究结果表明,前沿推理模型在以患者为中心的沟通方面表现不佳,并且在高级诊断能力方面表现不佳,平均得分为31%。此外,我们观察到模型性能因患者的角色而异,并且性能随着对话轮数的增加而下降。我们的工作提供了一个全面的合成数据生成框架、一个数据集和一个评估框架,用于评估LLMs在多轮心理健康对话中的表现。
🔬 方法详解
问题定义:论文旨在解决现有LLM在多轮心理健康对话中表现不佳的问题。现有评估方法侧重于诊断准确性,忽略了患者的个性化需求、价值观以及对话的连贯性和流畅性。这导致LLM在实际应用中难以提供有效的心理健康支持。
核心思路:论文的核心思路是构建一个合成数据集,该数据集包含真实的多轮心理健康对话,并设计一个全面的评估框架,以评估LLM在这些对话中的表现。通过合成数据,可以控制对话的各种因素,例如患者的角色、问题类型和对话长度,从而更全面地评估LLM的能力。
技术框架:论文提出了MedAgent框架,用于生成MHSD数据集。该框架包含以下主要模块: 1. Persona Generation: 生成具有不同背景和心理健康问题的患者角色。 2. Dialogue Generation: 使用LLM生成患者与虚拟治疗师之间的多轮对话。 3. Data Augmentation: 对生成的数据进行增强,以提高数据的多样性和鲁棒性。 同时,论文提出了MultiSenseEval评估框架,用于评估LLM在MHSD数据集上的表现。该框架包含多个评估指标,例如对话质量、诊断准确性和患者满意度。
关键创新:论文的关键创新在于提出了MedAgent框架和MHSD数据集,为评估LLM在多轮心理健康对话中的表现提供了一个新的平台。此外,MultiSenseEval评估框架提供了一个更全面的评估方法,可以更准确地评估LLM在实际应用中的能力。
关键设计:MedAgent框架的关键设计包括: 1. 使用LLM生成对话,以确保对话的流畅性和自然性。 2. 使用不同的prompting策略来控制对话的风格和内容。 3. 使用数据增强技术来提高数据的多样性和鲁棒性。 MultiSenseEval评估框架的关键设计包括: 1. 使用多个评估指标来全面评估LLM的表现。 2. 使用人工评估来验证自动评估结果的准确性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,即使是前沿的LLM在MHSD数据集上的表现仍然低于预期,平均得分为31%。此外,研究发现模型性能受到患者角色和对话轮数的影响。这些结果表明,LLM在多轮心理健康对话方面仍有很大的提升空间,需要进一步的研究和开发。
🎯 应用场景
该研究成果可应用于开发更智能的心理健康聊天机器人,为用户提供个性化的心理健康支持。通过MedAgent框架和MHSD数据集,可以训练和评估LLM,使其能够更好地理解患者的需求,并提供有效的建议和支持。此外,该研究还可以促进心理健康领域的研究,帮助研究人员更好地了解LLM在心理健康领域的应用潜力。
📄 摘要(原文)
Limited access to mental healthcare, extended wait times, and increasing capabilities of Large Language Models (LLMs) has led individuals to turn to LLMs for fulfilling their mental health needs. However, examining the multi-turn mental health conversation capabilities of LLMs remains under-explored. Existing evaluation frameworks typically focus on diagnostic accuracy and win-rates and often overlook alignment with patient-specific goals, values, and personalities required for meaningful conversations. To address this, we introduce MedAgent, a novel framework for synthetically generating realistic, multi-turn mental health sensemaking conversations and use it to create the Mental Health Sensemaking Dialogue (MHSD) dataset, comprising over 2,200 patient-LLM conversations. Additionally, we present MultiSenseEval, a holistic framework to evaluate the multi-turn conversation abilities of LLMs in healthcare settings using human-centric criteria. Our findings reveal that frontier reasoning models yield below-par performance for patient-centric communication and struggle at advanced diagnostic capabilities with average score of 31%. Additionally, we observed variation in model performance based on patient's persona and performance drop with increasing turns in the conversation. Our work provides a comprehensive synthetic data generation framework, a dataset and evaluation framework for assessing LLMs in multi-turn mental health conversations.