Psy-Insight: Explainable Multi-turn Bilingual Dataset for Mental Health Counseling

📄 arXiv: 2503.03607v1 📥 PDF

作者: Keqi Chen, Zekai Sun, Yuhua Wen, Huijun Lian, Yingming Gao, Ya Li

分类: cs.CL

发布日期: 2025-03-05


💡 一句话要点

构建Psy-Insight:一个面向心理健康咨询的可解释多轮双语数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 心理健康咨询 大型语言模型 双语数据集 多任务学习 可解释性 情感分析 对话系统

📋 核心要点

  1. 现有心理健康咨询数据集匮乏,特别是中文数据集,限制了大型语言模型在该领域的应用。
  2. 论文构建了Psy-Insight数据集,包含多轮咨询对话,并标注了心理治疗、情感等标签及过程解释。
  3. 实验表明,在Psy-Insight上训练LLMs,模型不仅能模仿对话风格,还能理解咨询策略和推理。

📝 摘要(中文)

大型语言模型(LLMs)的上下文学习能力在心理健康支持方面显示出巨大潜力。然而,咨询数据集的缺乏,尤其是在中文语料库中,限制了它们在该领域的应用。为了解决这个问题,我们构建了Psy-Insight,这是第一个面向心理健康的可解释多任务双语数据集。我们收集了面对面的多轮咨询对话,并用多任务标签和对话过程解释进行标注。我们的标注包括心理治疗、情感、策略和主题标签,以及轮次级别的推理和会话级别的指导。Psy-Insight不仅适用于标签识别等任务,而且满足了训练LLMs通过逻辑推理充当共情咨询师的需求。实验表明,在Psy-Insight上训练LLMs使模型不仅能够模仿对话风格,而且能够理解咨询的潜在策略和推理。

🔬 方法详解

问题定义:论文旨在解决心理健康咨询领域缺乏高质量中文数据集的问题,现有方法难以训练出能够理解咨询策略和推理的大型语言模型。缺乏标注详细、可解释的数据集是主要痛点。

核心思路:论文的核心思路是构建一个包含多轮对话、多任务标签和对话过程解释的双语数据集Psy-Insight。通过提供丰富的标注信息,使模型能够学习咨询师的推理过程和策略,从而更好地理解和模拟咨询过程。

技术框架:Psy-Insight数据集的构建流程主要包括数据收集、多任务标注和质量控制三个阶段。数据收集阶段,收集面对面的多轮咨询对话。多任务标注阶段,对对话进行心理治疗、情感、策略和主题等多方面的标注,并提供轮次级别的推理和会话级别的指导。质量控制阶段,对标注数据进行审核和校对,确保数据质量。

关键创新:该论文的关键创新在于构建了一个可解释的多任务双语心理健康咨询数据集。与现有数据集相比,Psy-Insight不仅包含对话内容,还提供了详细的标注信息和过程解释,有助于模型理解咨询过程的内在逻辑。此外,双语特性也使得该数据集可以用于训练中英文心理健康咨询模型。

关键设计:Psy-Insight数据集包含多种类型的标注,包括:(1) 心理治疗标签,用于识别咨询中使用的心理治疗方法;(2) 情感标签,用于识别对话参与者的情感状态;(3) 策略标签,用于识别咨询师使用的咨询策略;(4) 主题标签,用于识别对话的主题;(5) 轮次级别的推理,用于解释咨询师在每个轮次中的推理过程;(6) 会话级别的指导,用于提供整个会话的指导方向。具体参数设置和损失函数等技术细节在论文中未详细说明,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在Psy-Insight数据集上训练的大型语言模型不仅能够模仿咨询对话的风格,而且能够理解咨询的潜在策略和推理过程。具体的性能数据、对比基线和提升幅度等信息在摘要中未提供,属于未知信息。

🎯 应用场景

该研究成果可应用于开发智能心理健康咨询系统,为用户提供个性化的心理健康支持。Psy-Insight数据集能够帮助训练更具同理心和理解能力的AI咨询师,缓解心理健康服务资源不足的问题。未来,该数据集可以进一步扩展到其他语言和文化背景,促进全球心理健康事业的发展。

📄 摘要(原文)

The in-context learning capabilities of large language models (LLMs) show great potential in mental health support. However, the lack of counseling datasets, particularly in Chinese corpora, restricts their application in this field. To address this, we constructed Psy-Insight, the first mental health-oriented explainable multi-task bilingual dataset. We collected face-to-face multi-turn counseling dialogues, which are annotated with multi-task labels and conversation process explanations. Our annotations include psychotherapy, emotion, strategy, and topic labels, as well as turn-level reasoning and session-level guidance. Psy-Insight is not only suitable for tasks such as label recognition but also meets the need for training LLMs to act as empathetic counselors through logical reasoning. Experiments show that training LLMs on Psy-Insight enables the models to not only mimic the conversation style but also understand the underlying strategies and reasoning of counseling.