RLVER: Reinforcement Learning with Verifiable Emotion Rewards for Empathetic Agents

📄 arXiv: 2507.03112v1 📥 PDF

作者: Peisong Wang, Ruotian Ma, Bang Zhang, Xingyu Chen, Zhiwei He, Kang Luo, Qingsong Lv, Qingxuan Jiang, Zheng Xie, Shanyi Wang, Yuan Li, Fanghua Ye, Jian Li, Yifan Yang, Zhaopeng Tu, Xiaolong Li

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-07-03

备注: Code: https://github.com/Tencent/DigitalHuman/tree/main/RLVER


💡 一句话要点

提出RLVER框架,利用可验证情感奖励提升LLM的共情能力

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 强化学习 情感智能 大型语言模型 共情能力 模拟用户

📋 核心要点

  1. 现有大型语言模型在情商方面存在不足,难以进行有效的情感交流。
  2. 提出RLVER框架,利用模拟用户提供的可验证情感奖励,通过强化学习提升LLM的共情能力。
  3. 实验结果表明,RLVER显著提高了LLM在Sentient-Benchmark上的得分,并提升了多种对话能力。

📝 摘要(中文)

大型语言模型(LLMs)在逻辑和算法推理方面表现出色,但其情商(EQ)远落后于认知能力。虽然来自可验证奖励的强化学习(RLVR)在其他领域取得了进展,但其在对话中的应用,特别是对于情商的应用,仍未得到充分探索。本文介绍了RLVER,这是第一个端到端强化学习框架,它利用来自模拟用户的可验证情感奖励来培养LLM的更高阶共情能力。在该框架内,自我一致的情感模拟用户参与对话展开,并在对话过程中产生确定性的情感分数,作为奖励信号来指导LLM的学习。使用PPO对公开可用的Qwen2.5-7B-Instruct模型进行微调,将其Sentient-Benchmark评分从13.3提高到79.2,同时在很大程度上保留了数学和编码能力。大量实验表明:(i) RLVER持续提高多种对话能力;(ii)思考型和非思考型模型表现出不同的趋势——思考型模型擅长共情和洞察力,而非思考型模型偏爱行动;(iii) GRPO通常产生稳定的收益,而PPO可以将某些能力推向更高的上限;(iv)更具挑战性的环境并不总是更好——适度的环境可以产生更强的结果。我们的结果表明,RLVER是通往情感智能和具有广泛能力的语言代理的实用途径。

🔬 方法详解

问题定义:现有大型语言模型虽然在逻辑推理方面表现出色,但在情感理解和共情能力方面仍然存在显著差距。现有的对话系统难以准确捕捉用户的情感状态,并做出恰当的情感回应,导致用户体验不佳。因此,如何提升LLM的情感智能,使其能够更好地理解和回应人类情感,是一个亟待解决的问题。

核心思路:RLVER的核心思路是利用强化学习,通过模拟用户提供的情感奖励信号来训练LLM,使其学会如何进行更具共情能力的对话。通过构建自我一致的情感模拟用户,可以为LLM提供可验证的情感反馈,从而引导LLM学习如何更好地理解和回应人类情感。这种方法避免了人工标注情感数据的成本和主观性,并能够有效地提升LLM的情感智能。

技术框架:RLVER框架包含以下主要模块:1) LLM对话代理:负责与模拟用户进行对话,并根据模拟用户的情感反馈进行学习。2) 自我一致的情感模拟用户:模拟真实用户的情感状态,并根据对话内容生成情感奖励信号。3) 强化学习算法:使用PPO或GRPO等强化学习算法,根据情感奖励信号优化LLM对话代理的策略。整个流程如下:LLM对话代理与模拟用户进行多轮对话,模拟用户根据对话内容生成情感奖励信号,强化学习算法根据情感奖励信号更新LLM对话代理的参数,重复以上步骤直至LLM对话代理的共情能力达到预期水平。

关键创新:RLVER的关键创新在于:1) 提出了利用可验证情感奖励进行强化学习的方法,避免了人工标注情感数据的成本和主观性。2) 构建了自我一致的情感模拟用户,能够为LLM提供可靠的情感反馈。3) 实现了端到端的强化学习框架,能够有效地提升LLM的共情能力。与现有方法的本质区别在于,RLVER不是依赖于人工标注的情感数据,而是通过模拟用户的情感反馈来训练LLM,从而更加有效地提升LLM的情感智能。

关键设计:在RLVER框架中,关键的设计包括:1) 情感模拟用户的设计:需要确保模拟用户的情感表达具有一致性和合理性。2) 奖励函数的设计:需要根据具体任务设计合适的奖励函数,以引导LLM学习到期望的共情能力。3) 强化学习算法的选择:需要根据具体任务选择合适的强化学习算法,例如PPO或GRPO。4) 模型微调策略:使用Qwen2.5-7B-Instruct模型作为基础模型,并使用PPO进行微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用RLVER框架对Qwen2.5-7B-Instruct模型进行微调后,其在Sentient-Benchmark上的得分从13.3提高到79.2,提升幅度显著。此外,实验还表明,RLVER框架能够持续提高多种对话能力,并且思考型模型在共情和洞察力方面表现更佳,而非思考型模型则更偏爱行动。GRPO通常产生稳定的收益,而PPO可以将某些能力推向更高的上限。

🎯 应用场景

RLVER框架具有广泛的应用前景,可以应用于智能客服、心理咨询、社交机器人等领域。通过提升LLM的共情能力,可以使其更好地理解和回应人类情感,从而提供更加个性化和人性化的服务。例如,在智能客服领域,可以利用RLVER框架训练出能够理解用户情绪并提供恰当帮助的智能客服机器人,从而提升用户满意度。在心理咨询领域,可以利用RLVER框架训练出能够理解患者情感并提供有效支持的心理咨询机器人,从而缓解心理咨询师的压力。

📄 摘要(原文)

Large language models (LLMs) excel at logical and algorithmic reasoning, yet their emotional intelligence (EQ) still lags far behind their cognitive prowess. While reinforcement learning from verifiable rewards (RLVR) has advanced in other domains, its application to dialogue-especially for emotional intelligence-remains underexplored. In this work, we introduce RLVER, the first end-to-end reinforcement learning framework that leverages verifiable emotion rewards from simulated users to cultivate higher-order empathetic abilities in LLMs. Within this framework, self-consistent affective simulated users engage in dialogue rollouts and produce deterministic emotion scores during conversations, serving as reward signals to guide the LLM's learning. Fine-tuning publicly available Qwen2.5-7B-Instruct model with PPO boosts its Sentient-Benchmark score from 13.3 to 79.2 while largely preserving mathematical and coding competence. Extensive experiments reveal that: (i) RLVER consistently improves multiple dialogue capabilities; (ii) Thinking and non-thinking models show distinct trends--thinking models excel in empathy and insight, while non-thinking models favor action; (iii) GRPO often yields stable gains, while PPO can push certain capabilities to a higher ceiling; (iv) More challenging environments are not always better-moderate ones can yield stronger outcomes. Our results show that RLVER is a practical route toward emotionally intelligent and broadly capable language agents.