Do Large Language Models Align with Core Mental Health Counseling Competencies?
作者: Viet Cuong Nguyen, Mohammad Taher, Dongwan Hong, Vinicius Konkolics Possobom, Vibha Thirunellayi Gopalakrishnan, Ekta Raj, Zihang Li, Heather J. Soled, Michael L. Birnbaum, Srijan Kumar, Munmun De Choudhury
分类: cs.CL, cs.AI
发布日期: 2024-10-29 (更新: 2025-02-26)
备注: 10 Pages, Accepted to Findings of NAACL 2025
🔗 代码/项目: GITHUB
💡 一句话要点
CounselingBench:评估大型语言模型在心理健康咨询能力上的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 心理健康咨询 能力评估 基准测试 自然语言处理
📋 核心要点
- 现有方法缺乏对大型语言模型(LLMs)在心理健康咨询核心能力上表现的系统评估,阻碍了其在该领域的应用。
- 论文提出CounselingBench基准,从五个关键能力维度评估LLMs,旨在弥合LLMs能力与心理健康咨询需求之间的差距。
- 实验结果表明,前沿LLMs虽具备基本能力,但在同理心和伦理方面仍有不足,医学LLMs并未显著优于通用模型。
📝 摘要(中文)
大型语言模型(LLMs)的快速发展为解决全球心理健康专业人员短缺问题提供了一个有希望的方案。然而,它们与基本咨询能力的匹配程度仍未得到充分探索。我们引入了CounselingBench,这是一个基于NCMHCE的新型基准,用于评估22个通用和医学微调的LLM在五个关键能力上的表现。虽然前沿模型超过了最低能力阈值,但它们未能达到专家级水平,在摄入、评估与诊断方面表现出色,但在核心咨询属性以及专业实践与伦理方面表现不佳。令人惊讶的是,医学LLM在准确性方面并未优于通用模型,尽管它们提供了稍微更好的理由,但却产生了更多与上下文相关的错误。这些发现突显了开发用于心理健康咨询的AI所面临的挑战,尤其是在需要同理心和细致推理的能力方面。我们的结果强调,在实际部署之前,需要专门的、经过微调的、与核心心理健康咨询能力相一致的模型,并辅以人工监督。与本文相关联的代码和数据可在https://github.com/cuongnguyenx/CounselingBench找到。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLMs)在多大程度上能够胜任心理健康咨询任务的问题。现有方法缺乏一个标准化的评估框架来衡量LLMs在核心咨询能力上的表现,这使得我们难以判断LLMs是否可以安全有效地应用于心理健康领域。特别是,现有方法没有充分考虑到咨询过程中涉及的同理心、伦理判断和情境理解等复杂因素。
核心思路:论文的核心思路是构建一个名为CounselingBench的基准测试,该基准基于美国国家心理健康咨询师考试(NCMHCE),涵盖了五个关键的咨询能力维度:摄入、评估与诊断,治疗计划,核心咨询属性,专业实践与伦理。通过在CounselingBench上评估不同的LLMs,可以量化它们在这些关键能力上的表现,从而判断它们是否适合用于心理健康咨询。
技术框架:CounselingBench基准测试包含一系列问题,这些问题模拟了心理健康咨询的真实场景。每个问题都对应于NCMHCE考试中的一个知识点或技能。论文选取了22个LLMs,包括通用LLMs和医学微调的LLMs,并使用这些LLMs来回答CounselingBench中的问题。然后,论文使用人工评估和自动评估相结合的方法来评估LLMs的答案。人工评估侧重于答案的质量、合理性和同理心,而自动评估则侧重于答案的准确性和一致性。
关键创新:论文的关键创新在于提出了CounselingBench基准测试,这是第一个专门用于评估LLMs在心理健康咨询能力上的基准。与现有的通用LLM评估基准不同,CounselingBench更加关注咨询过程中涉及的特定技能和知识,例如同理心、伦理判断和情境理解。此外,CounselingBench还采用了人工评估和自动评估相结合的方法,从而可以更全面地评估LLMs的答案。
关键设计:CounselingBench中的问题设计参考了NCMHCE考试的内容,并经过了心理健康专业人员的审核,以确保其有效性和可靠性。论文使用了多种评估指标来衡量LLMs的答案,包括准确率、精确率、召回率和F1值。此外,论文还设计了一种新的评估指标,用于衡量LLMs答案中的同理心程度。在实验中,论文使用了不同的提示策略来引导LLMs生成答案,并比较了不同提示策略对LLMs表现的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,虽然前沿LLMs在某些咨询能力上表现良好,例如摄入、评估与诊断,但它们在核心咨询属性以及专业实践与伦理方面仍有不足。医学微调的LLMs在准确性方面并未显著优于通用LLMs,并且更容易产生与上下文相关的错误。这些结果表明,需要进一步改进LLMs的咨询能力,并加强人工监督,才能安全有效地将其应用于心理健康领域。
🎯 应用场景
该研究成果可应用于开发辅助心理健康咨询的AI工具,例如自动问诊系统、情感支持聊天机器人等。通过评估和改进LLMs在咨询能力上的表现,可以提高这些工具的有效性和安全性,从而缓解心理健康专业人员短缺的问题,并为更多人提供心理健康服务。未来的研究可以进一步探索如何利用LLMs来提供个性化的心理健康咨询服务。
📄 摘要(原文)
The rapid evolution of Large Language Models (LLMs) presents a promising solution to the global shortage of mental health professionals. However, their alignment with essential counseling competencies remains underexplored. We introduce CounselingBench, a novel NCMHCE-based benchmark evaluating 22 general-purpose and medical-finetuned LLMs across five key competencies. While frontier models surpass minimum aptitude thresholds, they fall short of expert-level performance, excelling in Intake, Assessment & Diagnosis but struggling with Core Counseling Attributes and Professional Practice & Ethics. Surprisingly, medical LLMs do not outperform generalist models in accuracy, though they provide slightly better justifications while making more context-related errors. These findings highlight the challenges of developing AI for mental health counseling, particularly in competencies requiring empathy and nuanced reasoning. Our results underscore the need for specialized, fine-tuned models aligned with core mental health counseling competencies and supported by human oversight before real-world deployment. Code and data associated with this manuscript can be found at: https://github.com/cuongnguyenx/CounselingBench