Context-Emotion Aware Therapeutic Dialogue Generation: A Multi-component Reinforcement Learning Approach to Language Models for Mental Health Support

📄 arXiv: 2511.11884v1 📥 PDF

作者: Eric Hua Qing Zhang, Julia Ive

分类: cs.CL

发布日期: 2025-11-14


💡 一句话要点

提出上下文-情感感知的治疗性对话生成方法,利用多组件强化学习提升语言模型在心理健康支持中的表现。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 治疗性对话生成 强化学习 心理健康支持 情感感知 上下文建模

📋 核心要点

  1. 现有预训练语言模型在心理健康支持领域应用时,缺乏足够的上下文和情感感知能力,难以生成合适的治疗性回复。
  2. 通过重构输入格式,同时处理上下文信息和情感状态,并设计多组件奖励函数,使模型输出与专业治疗师的反应和标注的情感对齐。
  3. 实验结果表明,强化学习方法显著提升了模型在BLEU、ROUGE和METEOR等指标上的表现,情感准确率从66.96%提升至99.34%。

📝 摘要(中文)

心理健康问题带来了巨大的全球社会经济负担,而COVID-19进一步加剧了可及性挑战,并推动了对远程心理健康支持的需求。大型语言模型(LLM)通过24/7的可用性和非评判性互动提供了有希望的解决方案,但预训练模型通常缺乏适当治疗性反应所需的上下文和情感意识。本文研究了应用监督微调(SFT)和强化学习(RL)技术来增强GPT-2的治疗性对话生成能力。该方法重构了输入格式,以实现同时处理上下文信息和情感状态以及用户输入,采用多组件奖励函数,使模型输出与专业治疗师的反应和标注的情感保持一致。结果表明,通过强化学习,在多个评估指标上优于基线GPT-2:BLEU(0.0111),ROUGE-1(0.1397),ROUGE-2(0.0213),ROUGE-L(0.1317)和METEOR(0.0581)。LLM评估证实了高上下文相关性和专业性,而强化学习实现了99.34%的情感准确性,而基线GPT-2为66.96%。这些发现表明,强化学习在开发治疗性对话系统方面的有效性,这些系统可以作为治疗师的宝贵辅助工具,同时保持必要的人工临床监督。

🔬 方法详解

问题定义:论文旨在解决大型语言模型在生成治疗性对话时,缺乏上下文和情感感知能力的问题。现有预训练模型难以理解患者的复杂情感状态和背景信息,导致生成的回复不够贴切,甚至可能产生负面影响。

核心思路:论文的核心思路是利用强化学习,通过设计多组件奖励函数,引导模型生成更符合专业治疗师风格和情感表达的回复。同时,通过重构输入格式,使模型能够同时处理上下文信息和情感状态。

技术框架:整体框架包括以下几个阶段:1) 数据预处理:构建包含上下文、情感和治疗师回复的对话数据集。2) 监督微调(SFT):使用数据集对GPT-2进行微调,使其初步具备生成治疗性对话的能力。3) 强化学习(RL):使用多组件奖励函数对微调后的模型进行强化学习,进一步提升其上下文和情感感知能力。4) 模型评估:使用BLEU、ROUGE、METEOR等指标以及人工评估,评估模型的性能。

关键创新:论文的关键创新在于提出了一个多组件奖励函数,该函数综合考虑了模型生成回复的专业性、情感准确性和上下文相关性。这种奖励函数能够更有效地引导模型学习生成高质量的治疗性对话。

关键设计:多组件奖励函数包括以下几个部分:1) 专业性奖励:衡量模型生成回复与专业治疗师回复的相似度。2) 情感准确性奖励:衡量模型生成回复所表达的情感与标注情感的匹配程度。3) 上下文相关性奖励:衡量模型生成回复与对话上下文的相关性。此外,论文还对输入格式进行了重构,将上下文信息和情感状态与用户输入一起输入模型。

📊 实验亮点

实验结果表明,通过强化学习,模型在多个评估指标上取得了显著提升。具体而言,BLEU提升了0.0111,ROUGE-1提升了0.1397,ROUGE-2提升了0.0213,ROUGE-L提升了0.1317,METEOR提升了0.0581。更重要的是,情感准确率从基线GPT-2的66.96%大幅提升至99.34%。

🎯 应用场景

该研究成果可应用于开发智能心理健康支持系统,为患者提供24/7的在线心理咨询服务。这些系统可以作为治疗师的辅助工具,减轻他们的工作负担,并提高心理健康服务的可及性。未来,该技术有望应用于更广泛的领域,例如情感陪伴机器人和人机交互系统。

📄 摘要(原文)

Mental health illness represents a substantial global socioeconomic burden, with COVID-19 further exacerbating accessibility challenges and driving increased demand for telehealth mental health support. While large language models (LLMs) offer promising solutions through 24/7 availability and non-judgmental interactions, pre-trained models often lack the contextual and emotional awareness necessary for appropriate therapeutic responses. This paper investigated the application of supervised fine-tuning (SFT) and reinforcement learning (RL) techniques to enhance GPT-2's capacity for therapeutic dialogue generation. The methodology restructured input formats to enable simultaneous processing of contextual information and emotional states alongside user input, employing a multi-component reward function that aligned model outputs with professional therapist responses and annotated emotions. Results demonstrated improvements through reinforcement learning over baseline GPT-2 across multiple evaluation metrics: BLEU (0.0111), ROUGE-1 (0.1397), ROUGE-2 (0.0213), ROUGE-L (0.1317), and METEOR (0.0581). LLM evaluation confirmed high contextual relevance and professionalism, while reinforcement learning achieved 99.34% emotion accuracy compared to 66.96% for baseline GPT-2. These findings demonstrate reinforcement learning's effectiveness in developing therapeutic dialogue systems that can serve as valuable assistive tools for therapists while maintaining essential human clinical oversight.