Cactus: Towards Psychological Counseling Conversations using Cognitive Behavioral Theory
作者: Suyeon Lee, Sunghwan Kim, Minju Kim, Dongjin Kang, Dongil Yang, Harim Kim, Minseok Kang, Dayi Jung, Min Hee Kim, Seungbeen Lee, Kyoung-Mee Chung, Youngjae Yu, Dongha Lee, Jinyoung Yeo
分类: cs.CL
发布日期: 2024-07-03 (更新: 2024-10-06)
备注: Published at EMNLP 2024 Findings
💡 一句话要点
Cactus:构建基于认知行为疗法的心理咨询对话数据集
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 心理咨询 认知行为疗法 大型语言模型 对话数据集 心理健康
📋 核心要点
- 心理咨询需求激增,但训练开源LLM面临缺乏真实咨询数据集的挑战,限制了其在心理健康领域的应用。
- Cactus数据集通过模拟认知行为疗法(CBT)的结构化咨询过程,创建具有多样化人物设定的多轮对话,提升数据真实性。
- 实验表明,基于Cactus训练的Camel模型在咨询技能上优于其他模型,验证了该数据集的有效性和模型的潜力。
📝 摘要(中文)
随着越来越多的人关注心理健康,心理咨询的需求显著增加。这加速了利用大型语言模型(LLMs)作为咨询师来提高咨询可及性的努力。为了确保客户隐私,训练开源LLMs面临一个关键挑战:缺乏真实的咨询数据集。为了解决这个问题,我们推出了Cactus,一个多轮对话数据集,它通过认知行为疗法(CBT)的目标导向和结构化方法来模拟现实生活中的互动。我们通过设计具有不同特定角色的人物,并让咨询师系统地应用CBT技术来创建多样化和真实的数据集。为了评估我们数据的质量,我们对照用于评估真实咨询会话的既定心理标准进行基准测试,确保与专家评估保持一致。实验结果表明,使用Cactus训练的模型Camel在咨询技能方面优于其他模型,突出了其有效性和作为咨询代理的潜力。我们公开提供我们的数据、模型和代码。
🔬 方法详解
问题定义:论文旨在解决开源大型语言模型(LLMs)在心理咨询应用中缺乏高质量、真实的训练数据的问题。现有方法依赖于通用对话数据集或合成数据,无法充分模拟认知行为疗法(CBT)的结构化咨询过程,导致模型在实际咨询场景中的表现不佳。此外,保护客户隐私也是一个重要的考量因素。
核心思路:论文的核心思路是通过构建一个专门针对CBT的对话数据集Cactus,来训练更有效的心理咨询LLM。Cactus数据集模拟了现实生活中的咨询互动,包含具有不同人物设定的客户和系统地应用CBT技术的咨询师。通过这种方式,模型可以学习到更专业的咨询技巧和策略。
技术框架:Cactus数据集的构建流程主要包括以下几个阶段:1) 设计具有不同背景和心理问题的客户角色;2) 由咨询师根据CBT原则与客户进行多轮对话;3) 对话数据进行清洗和标注,确保数据质量;4) 使用Cactus数据集训练LLM,例如Camel模型。整体框架强调CBT的结构化方法和客户角色的多样性。
关键创新:该论文的关键创新在于构建了一个专门针对CBT的心理咨询对话数据集Cactus。与现有方法相比,Cactus数据集更注重模拟真实的咨询场景,包含多样化的客户角色和系统化的CBT技术应用。这使得训练出的模型能够更好地理解和应用CBT原则,从而提供更有效的心理咨询服务。
关键设计:在数据集构建方面,论文设计了多种客户角色,每个角色都有特定的心理问题和背景故事。咨询师在对话中需要根据CBT的原则,例如认知重建、行为激活等,来引导客户。此外,论文还采用了心理学领域的评估标准来评估数据集的质量,确保其与专家评估保持一致。在模型训练方面,论文使用了Camel模型,并针对咨询任务进行了微调。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用Cactus数据集训练的Camel模型在咨询技能方面优于其他模型。具体来说,Camel模型在模拟咨询对话的流畅性、CBT技术的应用以及对客户情感的理解等方面都取得了显著提升。该研究还通过专家评估验证了Cactus数据集的质量,确保其与真实咨询场景的一致性。
🎯 应用场景
该研究成果可应用于开发智能心理咨询助手,为用户提供初步的心理健康支持和指导。Cactus数据集和训练模型可以帮助缓解心理咨询资源不足的问题,提高心理咨询服务的可及性,尤其是在偏远地区或资源匮乏的社区。未来,该技术有望与专业心理咨询师合作,提供更全面和个性化的心理健康服务。
📄 摘要(原文)
Recently, the demand for psychological counseling has significantly increased as more individuals express concerns about their mental health. This surge has accelerated efforts to improve the accessibility of counseling by using large language models (LLMs) as counselors. To ensure client privacy, training open-source LLMs faces a key challenge: the absence of realistic counseling datasets. To address this, we introduce Cactus, a multi-turn dialogue dataset that emulates real-life interactions using the goal-oriented and structured approach of Cognitive Behavioral Therapy (CBT). We create a diverse and realistic dataset by designing clients with varied, specific personas, and having counselors systematically apply CBT techniques in their interactions. To assess the quality of our data, we benchmark against established psychological criteria used to evaluate real counseling sessions, ensuring alignment with expert evaluations. Experimental results demonstrate that Camel, a model trained with Cactus, outperforms other models in counseling skills, highlighting its effectiveness and potential as a counseling agent. We make our data, model, and code publicly available.