CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy

作者: Mian Zhang, Xianjun Yang, Xinlu Zhang, Travis Labrum, Jamie C. Chiu, Shaun M. Eack, Fei Fang, William Yang Wang, Zhiyu Zoey Chen

分类: cs.CL, cs.AI, cs.CY

发布日期: 2024-10-17 (更新: 2025-01-26)

备注: NAACL 2025 Camera Ready

💡 一句话要点

提出CBT-BENCH基准，评估大型语言模型在认知行为疗法辅助中的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 认知行为疗法 大型语言模型 心理健康 评估基准 自然语言处理

📋 核心要点

当前患者的心理健康需求与可用的支持之间存在巨大差距，亟需探索AI辅助心理治疗的潜力。
论文提出了CBT-BENCH基准，包含知识获取、认知模型理解和治疗性反应生成三个层级的任务，系统评估LLM在CBT辅助中的能力。
实验结果表明，LLM在CBT知识背诵方面表现良好，但在复杂场景下分析认知结构和生成有效反应方面存在不足。

📝 摘要（中文）

本文旨在全面考察使用大型语言模型（LLMs）辅助专业心理治疗的潜力。为此，我们提出了一个新的基准CBT-BENCH，用于系统评估认知行为疗法（CBT）辅助。CBT-BENCH包含三个级别的任务：I：基础CBT知识获取，任务为多项选择题；II：认知模型理解，任务包括认知扭曲分类、主要核心信念分类和细粒度核心信念分类；III：治疗性反应生成，任务为在CBT治疗过程中生成对患者言语的反应。这些任务涵盖了CBT的关键方面，这些方面有可能通过AI辅助得到增强，同时也概述了能力要求的层次结构，从基本知识背诵到参与真实的治疗对话。我们评估了具有代表性的LLM在该基准上的表现。实验结果表明，虽然LLM在背诵CBT知识方面表现良好，但在需要深入分析患者认知结构和生成有效反应的复杂现实场景中表现不足，这表明了未来的潜在工作方向。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在辅助认知行为疗法（CBT）方面的能力评估问题。现有方法缺乏一个专门针对CBT的综合性评估基准，难以衡量LLMs在理解患者认知结构和生成有效治疗性反应方面的能力。现有评估方法无法覆盖CBT的多个关键方面，例如基础知识、认知模型理解和治疗性反应生成。

核心思路：论文的核心思路是构建一个多层次的CBT-BENCH基准，该基准包含三个难度递增的任务级别，分别对应CBT辅助的不同能力要求。通过这种分层结构，可以更全面地评估LLMs在CBT辅助方面的潜力，并识别其优势和不足。基准的设计涵盖了从基础知识背诵到复杂情境下的反应生成，旨在模拟真实的治疗场景。

技术框架：CBT-BENCH基准包含三个主要模块：1) 基础CBT知识获取：通过多项选择题评估LLMs对CBT基本概念和原则的理解。2) 认知模型理解：包括认知扭曲分类、主要核心信念分类和细粒度核心信念分类，旨在评估LLMs理解患者认知结构的能力。3) 治疗性反应生成：要求LLMs根据患者的言语生成合适的治疗性反应，评估其在真实治疗场景中的应用能力。

关键创新：该论文的关键创新在于提出了CBT-BENCH基准，这是一个专门针对评估LLMs在CBT辅助方面能力的综合性基准。与现有通用型基准相比，CBT-BENCH更贴近CBT的实际应用场景，能够更准确地评估LLMs在理解患者认知结构和生成有效治疗性反应方面的能力。此外，CBT-BENCH的分层结构允许对LLMs的能力进行更细粒度的评估。

关键设计：在认知模型理解任务中，论文采用了细粒度的核心信念分类，这需要LLMs对患者的言语进行深入分析，并识别出隐藏在背后的核心信念。在治疗性反应生成任务中，论文采用了基于真实CBT治疗会话的数据，以确保评估的真实性和有效性。具体的参数设置和损失函数选择取决于所评估的LLM模型。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在CBT知识背诵方面表现良好，但在认知模型理解和治疗性反应生成方面表现不足。例如，在认知扭曲分类任务中，LLM的准确率低于人类专家。这表明，虽然LLM可以掌握CBT的基本知识，但在复杂情境下分析患者认知结构和生成有效反应方面仍有很大的提升空间。CBT-BENCH提供了一个有价值的平台，用于评估和改进LLM在心理治疗领域的应用。

🎯 应用场景

该研究成果可应用于开发AI驱动的心理健康辅助工具，例如智能聊天机器人，为患者提供初步的心理支持和指导。CBT-BENCH基准可以促进LLM在心理治疗领域的应用，提高心理健康服务的可及性和效率，尤其是在心理健康资源匮乏的地区。未来，该基准可以扩展到其他心理治疗方法，并结合多模态数据，以实现更个性化和有效的心理健康干预。

📄 摘要（原文）

There is a significant gap between patient needs and available mental health support today. In this paper, we aim to thoroughly examine the potential of using Large Language Models (LLMs) to assist professional psychotherapy. To this end, we propose a new benchmark, CBT-BENCH, for the systematic evaluation of cognitive behavioral therapy (CBT) assistance. We include three levels of tasks in CBT-BENCH: I: Basic CBT knowledge acquisition, with the task of multiple-choice questions; II: Cognitive model understanding, with the tasks of cognitive distortion classification, primary core belief classification, and fine-grained core belief classification; III: Therapeutic response generation, with the task of generating responses to patient speech in CBT therapy sessions. These tasks encompass key aspects of CBT that could potentially be enhanced through AI assistance, while also outlining a hierarchy of capability requirements, ranging from basic knowledge recitation to engaging in real therapeutic conversations. We evaluated representative LLMs on our benchmark. Experimental results indicate that while LLMs perform well in reciting CBT knowledge, they fall short in complex real-world scenarios requiring deep analysis of patients' cognitive structures and generating effective responses, suggesting potential future work.

CBT-Bench: Evaluating Large Language Models on Assisting Cognitive Behavior Therapy

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理