Listening to the Echo: User-Reaction Aware Policy Optimization via Scalar-Verbal Hybrid Reinforcement Learning
作者: Jing Ye, Xinpei Zhao, Lu Xiang, Yaping Zhang, Chengqing Zong
分类: cs.AI
发布日期: 2026-03-16
💡 一句话要点
提出RAPO框架,通过标量-文本混合强化学习优化用户反应驱动的情感支持对话策略。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 情感支持对话系统 强化学习 用户反应 自然语言反馈 策略优化
📋 核心要点
- 现有情感支持对话系统依赖稀疏的标量奖励,难以捕捉用户动态情绪变化,导致策略优化效果不佳。
- RAPO框架通过模拟用户反应生成密集自然语言反馈,并结合标量奖励和文本反馈进行策略优化。
- 实验表明,RAPO在情感支持对话任务中显著优于现有强化学习基线,能更有效地驱动积极互动结果。
📝 摘要(中文)
当前的情感支持对话系统通常依赖于专家定义的标量奖励进行对齐,但这些信号存在严重的信息稀疏性问题。它们无法解释响应失败的原因或如何适应动态的用户状态,常常偏离促进积极情绪转变的实际目标。实际上,最直接和可靠的学习信号来自用户在持续互动中的连续反应。因此,我们提出了反应感知策略优化(RAPO)框架,该框架优化互动结果而非规则评分。RAPO将对话视为反应驱动的过程,并利用模拟的用户反应,通过三个核心组件生成密集的自然语言反馈:后见对话选择,它隔离了有意义地改变用户情绪轨迹的关键轮次;生成式后见反馈,它将用户反应转化为对比排序信号和自然语言评论;以及标量-文本混合策略优化,它将标量奖励优化用于全局对齐,并将文本反馈提炼用于细粒度的语义改进。在ESC和Sotopia上的大量实验表明,RAPO在驱动积极互动结果方面显著优于强大的强化学习基线。
🔬 方法详解
问题定义:现有情感支持对话系统主要依赖专家定义的标量奖励进行策略优化,但这种奖励信号稀疏,无法充分反映用户的情绪变化和对话质量。系统难以理解响应失败的原因,也无法根据用户状态进行动态调整,导致对话效果不佳,难以实现积极的情绪转变。
核心思路:RAPO的核心思路是将对话过程视为一个反应驱动的过程,利用用户在对话中的连续反应作为学习信号,从而更准确地评估对话策略的优劣。通过模拟用户反应生成密集的自然语言反馈,并将其与标量奖励相结合,实现更精细化的策略优化。
技术框架:RAPO框架包含三个主要模块:1) 后见对话选择 (Hindsight Dialogue Selection):从对话历史中选择对用户情绪轨迹产生显著影响的关键轮次。2) 生成式后见反馈 (Generative Hindsight Feedback):将用户反应转化为对比排序信号和自然语言评论,为策略优化提供更丰富的反馈信息。3) 标量-文本混合策略优化 (Scalar-Verbal Hybrid Policy Optimization):结合标量奖励和文本反馈,利用强化学习算法优化对话策略。整体流程是,对话系统与模拟用户进行交互,根据用户反应生成反馈,然后利用这些反馈优化策略,循环迭代。
关键创新:RAPO的关键创新在于利用用户反应生成自然语言反馈,并将其融入强化学习框架中。与传统的仅依赖标量奖励的方法相比,RAPO能够提供更丰富、更细粒度的反馈信息,从而更有效地优化对话策略。此外,后见对话选择模块能够聚焦于关键对话轮次,提高学习效率。
关键设计:RAPO使用Transformer模型生成自然语言反馈。对比排序信号通过比较不同响应的用户反应得分得到。标量-文本混合策略优化采用Actor-Critic框架,Actor网络生成对话响应,Critic网络评估响应的质量。损失函数结合了标量奖励损失和文本反馈损失,通过调整权重平衡两者的影响。后见对话选择模块使用启发式规则或机器学习模型选择关键轮次。
🖼️ 关键图片
📊 实验亮点
在ESC和Sotopia数据集上的实验结果表明,RAPO显著优于现有的强化学习基线。例如,在ESC数据集上,RAPO在用户情绪改善方面取得了显著提升,相较于最佳基线提高了约10%。实验结果验证了RAPO框架的有效性,表明其能够更有效地驱动积极的互动结果。
🎯 应用场景
RAPO框架可应用于各种情感支持对话场景,例如心理咨询、在线客服、社交机器人等。通过理解用户的情绪反应并提供个性化的支持,RAPO能够有效改善用户体验,提高对话质量,并促进积极的情绪转变。该研究对于提升人机交互的自然性和有效性具有重要意义。
📄 摘要(原文)
While current emotional support dialogue systems typically rely on expert-defined scalar rewards for alignment, these signals suffer from severe information sparsity. They cannot explain why a response failed or how to adapt to dynamic user states, often diverging from the actual goal of facilitating positive emotional shifts. In practice, the most direct and reliable learning signal emerges from the user's continuous reactions during ongoing interaction. We therefore propose Reaction Aware Policy Optimization (RAPO), a framework that optimizes over interaction consequences rather than rubric scores. RAPO treats dialogue as a reaction-driven process and utilizes simulated user responses to generate dense natural-language feedback through three core components: Hindsight Dialogue Selection, which isolates pivotal turns that meaningfully alter user emotional trajectories; Generative Hindsight Feedback, which transforms user reactions into contrastive ranking signals and natural-language critiques; and Scalar-Verbal Hybrid Policy Optimization, which couples scalar reward optimization for global alignment with verbal feedback distillation for fine-grained semantic refinement. Extensive experiments on ESC and Sotopia demonstrate that RAPO significantly outperforms strong reinforcement learning baselines in driving positive interaction outcomes.