PRISMA: Preference-Reinforced Self-Training Approach for Interpretable Emotionally Intelligent Negotiation Dialogues

📄 arXiv: 2604.18354v1 📥 PDF

作者: Prajwal Vijay Kajare, Priyanshu Priya, Bikash Santra, Asif Ekbal

分类: cs.CL

发布日期: 2026-04-20

备注: 10 pages + appendix (23 pages total), paper accepted at ACL (Main) 2026


💡 一句话要点

PRISMA:一种基于偏好强化自训练的可解释情感智能协商对话系统

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感智能 协商对话系统 可解释性 自训练 直接偏好优化

📋 核心要点

  1. 现有协商对话系统缺乏情感感知能力和可解释性,难以建立有效的人机交互。
  2. PRISMA通过情感感知协商策略指导的思维链(ENS-CoT)推理机制,模拟人类协商过程。
  3. 实验表明,PRISMA在可解释性、情感感知响应生成和整体协商效率方面均有显著提升。

📝 摘要(中文)

情感在塑造协商结果中起着关键作用,影响信任、合作和长期关系。开发能够识别并策略性地响应情感的协商对话系统对于创建更有效的人机交互至关重要。除了生成情感上适当的响应之外,可解释性——理解系统如何生成特定的情感感知响应——对于培养可靠性和建立融洽关系至关重要。受这些方面的驱动,我们提出了PRISMA,一个可解释的情感智能协商对话系统,目标应用领域为求职面试和资源分配。为了实现可解释性,我们提出了一种情感感知协商策略指导的思维链(ENS-CoT)推理机制,该机制通过感知、理解、使用和管理情感来模仿人类协商。利用ENS-CoT,我们策划了两个新的数据集:JobNego(用于求职面试协商)和ResNego(用于资源分配协商)。然后,我们利用这些数据集,通过使用直接偏好优化(DPO)增强自训练来开发PRISMA,引导智能体生成更准确、可解释和情感上适当的协商响应。在JobNego和ResNego数据集上的自动和人工评估表明,PRISMA显著提高了可解释性,并生成了适当的情感感知响应,同时提高了整体协商效率。

🔬 方法详解

问题定义:现有协商对话系统在情感理解和响应方面存在不足,难以生成情感上适当且可解释的回复。这限制了人机交互的有效性和可靠性。此外,缺乏可解释性使得用户难以理解系统决策过程,从而降低了信任度。

核心思路:PRISMA的核心思路是利用情感感知协商策略指导的思维链(ENS-CoT)推理机制,使系统能够像人类一样感知、理解、使用和管理情感。通过这种方式,系统可以生成更自然、更具情感意识且可解释的协商回复。此外,使用直接偏好优化(DPO)增强自训练,引导智能体学习更符合人类偏好的行为。

技术框架:PRISMA的整体框架包括以下几个主要模块:1) ENS-CoT推理模块:负责生成包含情感感知和协商策略信息的思维链;2) 自训练模块:利用ENS-CoT生成的思维链对模型进行训练,提高模型的情感感知能力和协商技巧;3) 直接偏好优化(DPO)模块:根据人类对不同回复的偏好,对模型进行微调,使其生成更符合人类期望的回复。

关键创新:PRISMA的关键创新在于提出了情感感知协商策略指导的思维链(ENS-CoT)推理机制。与传统的思维链方法不同,ENS-CoT不仅考虑了协商过程中的逻辑推理,还融入了情感因素,使得系统能够更好地理解和响应人类的情感需求。此外,结合自训练和直接偏好优化,进一步提高了模型的情感感知能力和生成高质量回复的能力。

关键设计:ENS-CoT推理模块的设计关键在于如何有效地将情感信息融入到思维链中。具体来说,该模块会根据当前对话状态,识别参与者的情感状态,并根据预定义的协商策略,生成包含情感信息的推理步骤。DPO模块的关键在于如何获取高质量的人类偏好数据。论文通过人工标注的方式,收集了大量人类对不同回复的偏好信息,并将其用于模型的微调。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

PRISMA在JobNego和ResNego数据集上进行了评估,结果表明,PRISMA在可解释性、情感感知响应生成和整体协商效率方面均优于现有方法。具体来说,PRISMA在自动评估指标和人工评估指标上均取得了显著提升,证明了其有效性。例如,在可解释性方面,PRISMA生成的思维链更易于理解,能够清晰地展示系统的决策过程。

🎯 应用场景

PRISMA具有广泛的应用前景,例如:1) 智能客服:可以用于构建更具情感智能的客服系统,提高用户满意度;2) 招聘面试:可以辅助面试官进行面试,提高面试效率和准确性;3) 谈判协商:可以作为谈判助手,帮助用户达成更有利的协议。此外,该研究对于提升人机交互的自然性和可靠性具有重要意义。

📄 摘要(原文)

Emotion plays a pivotal role in shaping negotiation outcomes, influencing trust, cooperation, and long-term relationships. Developing negotiation dialog systems that can recognize and respond strategically to emotions is, therefore, essential to create more effective human-centered interactions. Beyond generating emotionally appropriate responses, interpretability - understanding how a system generates a particular emotion-aware response, is critical for fostering reliability and building rapport. Driven by these aspects, in this work, we introduce PRISMA, an interpretable emotionally intelligent negotiation dialogue system targeting two application domains, viz. job interviews and resource allocation. To enable interpretability, we propose an Emotion-aware Negotiation Strategy-informed Chain-of-Thought (ENS-CoT) reasoning mechanism, which mimics human negotiation by perceiving, understanding, using, and managing emotions. Leveraging ENS-CoT, we curate two new datasets: JobNego (for job interview negotiation) and ResNego (for resource allocation negotiation). We then leverage these datasets to develop PRISMA by augmenting self-training with Direct Preference Optimization (DPO), guiding agents toward more accurate, interpretable, and emotionally appropriate negotiation responses. Automatic and human evaluation on JobNego and ResNego datasets demonstrate that PRISMA substantially enhances interpretability and generates appropriate emotion-aware responses, while improving overall negotiation effectiveness.