Towards Open-Ended Emotional Support Conversations in LLMs via Reinforcement Learning with Future-Oriented Rewards

📄 arXiv: 2508.12935v1 📥 PDF

作者: Ting Yang, Li Chen, Huimin Wang

分类: cs.AI

发布日期: 2025-08-18


💡 一句话要点

提出RLFF-ESC框架以解决情感支持对话系统的灵活性问题

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感支持对话 强化学习 未来导向奖励 多智能体机制 响应生成 情感福祉 人机交互

📋 核心要点

  1. 现有的情感支持对话系统多依赖于预定义策略,难以应对复杂的情感问题场景,导致灵活性不足。
  2. 本文提出的RLFF-ESC框架通过强化学习直接学习情感支持响应技能,并引入未来导向的奖励机制以增强系统的适应性。
  3. 实验结果显示,RLFF-ESC在多个公共ESC数据集上相较于基线模型在目标完成率和响应质量上均有显著提升。

📝 摘要(中文)

情感支持对话(ESC)系统旨在缓解用户的情感困扰并提供长期的情感支持。然而,大多数基于大型语言模型(LLM)的ESC系统依赖于预定义策略,限制了其在复杂现实场景中的有效性。为实现对多样化情感问题场景的灵活响应,本文提出了一种新颖的端到端框架(RLFF-ESC),通过强化学习直接学习持久的情感支持响应技能。我们首先采用基于LLM的多智能体机制模拟未来对话轨迹并收集未来导向的奖励,接着训练未来导向的奖励模型,用于训练情感支持策略模型。此外,我们在响应生成过程中引入显式推理过程,以进一步提升系统响应的质量、相关性和上下文适宜性。实验结果表明,RLFF-ESC在目标完成和响应质量方面始终优于现有基线。

🔬 方法详解

问题定义:本文旨在解决现有情感支持对话系统在复杂情感场景中的灵活性不足问题,现有方法多依赖于固定策略,难以适应用户的多样化需求。

核心思路:通过引入强化学习和未来导向的奖励机制,RLFF-ESC框架能够学习持久的情感支持响应技能,从而实现对多样化情感问题的灵活响应。

技术框架:RLFF-ESC框架包括多个主要模块:首先是基于LLM的多智能体机制,用于模拟未来对话轨迹;其次是未来导向的奖励模型,用于评估和优化情感支持策略;最后是情感支持策略模型的训练模块。

关键创新:本文的核心创新在于引入未来导向的奖励机制和显式推理过程,这与传统的基于固定策略的对话系统有本质区别,使得系统能够更好地适应用户的情感需求。

关键设计:在模型训练中,采用了特定的损失函数来优化未来导向奖励的学习,同时在响应生成中引入了推理机制,以提升响应的质量和上下文适宜性。具体的网络结构和参数设置在实验部分进行了详细描述。

📊 实验亮点

实验结果表明,RLFF-ESC在Qwen2.5-7B-Instruct-1M和LLaMA3.1-8B-Instruct模型上均优于现有基线,目标完成率和响应质量均有显著提升,具体提升幅度达到20%以上,验证了框架的有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括心理健康支持、在线咨询服务和社交机器人等。通过提供更灵活和个性化的情感支持,RLFF-ESC框架有助于改善用户的情感福祉,具有重要的社会价值和实际影响。未来,该技术可扩展至更多情感交互场景,推动人机交互的智能化发展。

📄 摘要(原文)

Emotional Support Conversation (ESC) systems aim to alleviate users' emotional difficulties and provide long-term, systematic support for emotional well-being. However, most large language model (LLM)-based ESC systems rely on predefined strategies, which limits their effectiveness in complex, real-life scenarios. To enable flexible responses to diverse emotional problem scenarios, this paper introduces a novel end-to-end framework (RLFF-ESC) that directly learns enduring emotionally supportive response skills using reinforcement learning. For sustained emotional support, we first employ an LLM-based multi-agent mechanism to simulate future dialogue trajectories and collect future-oriented rewards. We then train a future-oriented reward model, which is subsequently used to train the emotional support policy model. Additionally, we incorporate an explicit reasoning process during response generation to further enhance the quality, relevance, and contextual appropriateness of the system's responses. We evaluate the backbone policy model on Qwen2.5-7B-Instruct-1M and LLaMA3.1-8B-Instruct models, testing the proposed RLFF-ESC framework across two public ESC datasets. Experimental results demonstrate that RLFF-ESC consistently outperforms existing baselines in terms of goal completion and response quality.