Empathy-R1: A Chain-of-Empathy and Reinforcement Learning Framework for Long-Form Mental Health Support

作者: Xianrong Yao, Dong She, Chenxu Zhang, Yimeng Zhang, Yueru Sun, Noman Ahmed, Yang Gao, Zhanpeng Jin

分类: cs.CL, cs.AI

发布日期: 2025-09-18 (更新: 2025-09-19)

💡 一句话要点

提出Empathy-R1框架，结合同理心链式推理与强化学习，提升长文本心理健康支持质量。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 心理健康支持 同理心 链式推理 强化学习 长文本处理 认知行为疗法 中文数据集 人机交互

📋 核心要点

现有大型语言模型在长文本心理咨询中缺乏结构化推理，难以提供有效的心理支持。
Empathy-R1框架结合同理心链式推理和强化学习，提升模型在心理健康支持中的回复质量。
实验结果表明，Empathy-R1在自动指标和人工评估上均优于现有模型，Win@1率达到44.30%。

📝 摘要（中文）

本文提出Empathy-R1框架，旨在提升大型语言模型在长篇咨询文本（LCTs）中提供心理健康支持的质量，尤其是在中文语境下。现有模型通常生成语义流畅但缺乏结构化推理的回复，难以提供真正的心理支持。Empathy-R1集成了同理心链式推理（CoE）过程与强化学习（RL），CoE范式受认知行为疗法启发，引导模型推理求助者的情绪、原因和意图，增强透明性和可解释性。该框架基于新的大规模中文数据集Empathy-QA，并采用两阶段训练：监督微调赋予CoE推理结构，RL则通过奖励模型优化回复的治疗相关性和情境适当性。实验表明，Empathy-R1在自动指标和人工评估上均表现出色，Win@1率达到44.30%。Empathy-R1通过生成可解释和情境化的回复，代表了负责任且真正有益的心理健康AI的重大进展。

🔬 方法详解

问题定义：现有的大型语言模型在处理长篇心理咨询文本时，虽然能够生成流畅的回复，但缺乏深入的结构化推理能力，难以真正理解求助者的情绪、原因和意图，从而无法提供有效的心理支持。尤其是在中文语境下，这种问题更为突出。现有方法难以保证回复的治疗相关性和情境适当性。

核心思路：Empathy-R1的核心思路是模拟认知行为疗法的过程，通过同理心链式推理（Chain-of-Empathy, CoE）引导模型逐步分析求助者的情绪、导致情绪的原因以及求助者的意图。这种结构化的推理过程使得模型能够更深入地理解求助者的需求，从而生成更具同理心和治疗价值的回复。同时，利用强化学习进一步优化回复的质量。

技术框架：Empathy-R1框架包含以下几个主要模块：1) 同理心链式推理（CoE）模块：负责对求助者的文本进行结构化分析，推理其情绪、原因和意图。2) 回复生成模块：基于CoE的推理结果生成初步的回复。3) 奖励模型：评估回复的治疗相关性和情境适当性。4) 强化学习模块：根据奖励模型的反馈，优化回复生成策略。整个流程首先通过监督微调（SFT）训练模型进行CoE推理，然后利用强化学习（RL）进一步提升回复质量。

关键创新：Empathy-R1的关键创新在于：1) 提出了同理心链式推理（CoE）范式，将认知行为疗法的思想融入到模型推理过程中，增强了模型的可解释性和同理心。2) 构建了大规模中文心理咨询数据集Empathy-QA，为模型的训练提供了数据基础。3) 采用了两阶段训练策略，首先通过监督微调赋予模型CoE推理能力，然后通过强化学习优化回复质量。

关键设计：Empathy-R1的关键设计包括：1) CoE推理过程的具体步骤，包括情绪识别、原因分析和意图推断。2) 奖励模型的构建，用于评估回复的治疗相关性和情境适当性，奖励模型的设计直接影响强化学习的效果。3) 强化学习算法的选择，论文使用了某种具体的强化学习算法（具体算法未知），并针对心理咨询场景进行了调整。4) 数据集的构建细节，包括数据来源、标注方法和数据规模。

🖼️ 关键图片

📊 实验亮点

Empathy-R1在Empathy-QA数据集上进行了实验，结果表明，该框架在关键自动指标上表现出色。更重要的是，人工评估结果显示，Empathy-R1明显优于其他基线模型，在Win@1指标上达到了44.30%，表明用户更倾向于选择Empathy-R1生成的回复。这些结果充分证明了Empathy-R1在提升心理健康支持质量方面的有效性。

🎯 应用场景

Empathy-R1框架具有广泛的应用前景，可用于开发智能心理健康支持系统，为用户提供个性化的心理咨询和支持服务。该技术可以应用于在线心理咨询平台、智能聊天机器人等场景，尤其是在心理咨询资源匮乏的地区，能够有效缓解心理健康问题。未来，该研究可以进一步扩展到其他语言和文化背景，为全球范围内的心理健康事业做出贡献。

📄 摘要（原文）

Empathy is critical for effective mental health support, especially when addressing Long Counseling Texts (LCTs). However, existing Large Language Models (LLMs) often generate replies that are semantically fluent but lack the structured reasoning necessary for genuine psychological support, particularly in a Chinese context. To bridge this gap, we introduce Empathy-R1, a novel framework that integrates a Chain-of-Empathy (CoE) reasoning process with Reinforcement Learning (RL) to enhance response quality for LCTs. Inspired by cognitive-behavioral therapy, our CoE paradigm guides the model to sequentially reason about a help-seeker's emotions, causes, and intentions, making its thinking process both transparent and interpretable. Our framework is empowered by a new large-scale Chinese dataset, Empathy-QA, and a two-stage training process. First, Supervised Fine-Tuning instills the CoE's reasoning structure. Subsequently, RL, guided by a dedicated reward model, refines the therapeutic relevance and contextual appropriateness of the final responses. Experiments show that Empathy-R1 achieves strong performance on key automatic metrics. More importantly, human evaluations confirm its superiority, showing a clear preference over strong baselines and achieving a Win@1 rate of 44.30% on our new benchmark. By enabling interpretable and contextually nuanced responses, Empathy-R1 represents a significant advancement in developing responsible and genuinely beneficial AI for mental health support.

Empathy-R1: A Chain-of-Empathy and Reinforcement Learning Framework for Long-Form Mental Health Support

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理