EvoEmo: Towards Evolved Emotional Policies for Adversarial LLM Agents in Multi-Turn Price Negotiation

📄 arXiv: 2509.04310v3 📥 PDF

作者: Yunbo Long, Liming Xu, Lukas Beckenbauer, Yuhan Liu, Alexandra Brintrup

分类: cs.AI

发布日期: 2025-09-04 (更新: 2025-10-13)


💡 一句话要点

EvoEmo:面向多轮价格谈判中对抗性LLM智能体的演化情感策略

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: LLM智能体 情感计算 多轮谈判 演化强化学习 遗传算法

📋 核心要点

  1. 现有LLM智能体在谈判中情感表达被动,易受对抗方操纵,缺乏策略性情感运用。
  2. EvoEmo通过演化强化学习优化动态情感表达,将情感状态转移建模为马尔可夫决策过程。
  3. 实验表明,EvoEmo显著提升谈判成功率和效率,并为买方节省更多成本,优于传统策略。

📝 摘要(中文)

现有的大语言模型(LLM)智能体在复杂的多轮谈判中展现了潜力,但它们通常忽略了情感在谈判中的作用,仅产生被动的、由偏好驱动的情感反应,容易受到对抗方的操纵和策略性利用。为了解决这个问题,我们提出了EvoEmo,一个演化强化学习框架,用于优化谈判中的动态情感表达。EvoEmo将情感状态转移建模为马尔可夫决策过程,并采用基于种群的遗传优化来演化各种谈判场景中的高回报情感策略。我们还提出了一个包含vanilla策略和固定情感策略的评估框架,用于评估情感感知的谈判。大量的实验和消融研究表明,EvoEmo始终优于这两个基线,实现了更高的成功率、更高的效率和更高的买方节省。这些发现突出了自适应情感表达在使LLM智能体更有效地进行多轮谈判中的重要性。

🔬 方法详解

问题定义:论文旨在解决LLM智能体在多轮价格谈判中情感表达策略不足的问题。现有方法通常采用被动的情感反应,容易被对手利用,导致谈判失败或不利结果。痛点在于缺乏一种能够根据谈判态势动态调整情感表达的机制,从而无法有效地影响谈判进程和结果。

核心思路:论文的核心思路是通过演化强化学习,学习一种能够根据谈判状态动态调整情感表达的策略。这种策略能够使LLM智能体在谈判中更加灵活和具有适应性,从而更好地应对对手的策略,提高谈判成功率和效率。核心在于将情感表达视为一种可以学习和优化的行为,而非简单的预设或被动反应。

技术框架:EvoEmo框架包含以下主要模块:1) 情感状态建模:将情感状态定义为离散的状态空间,例如“高兴”、“愤怒”、“沮丧”等。2) 情感转移建模:将情感状态之间的转移建模为马尔可夫决策过程(MDP),其中状态转移概率取决于当前的情感状态和谈判状态。3) 策略演化:使用基于种群的遗传算法来演化情感策略,即在每个谈判状态下选择哪种情感表达。4) 奖励函数设计:设计奖励函数来鼓励智能体采取能够提高谈判成功率、效率和买方节省的情感策略。

关键创新:EvoEmo的关键创新在于将情感表达策略的学习与演化引入到LLM智能体的谈判过程中。与传统的固定情感策略或被动情感反应相比,EvoEmo能够根据谈判态势动态调整情感表达,从而更好地应对对手的策略。此外,使用遗传算法进行策略演化能够有效地探索策略空间,找到最优的情感表达策略。

关键设计:在情感状态建模方面,论文定义了一组离散的情感状态,并使用情感分类器来识别谈判文本中的情感。在奖励函数设计方面,论文综合考虑了谈判成功率、效率和买方节省等因素,设计了一个多目标奖励函数。在遗传算法方面,论文采用了交叉和变异等遗传操作来生成新的情感策略,并使用适应度函数来评估策略的优劣。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,EvoEmo在多轮价格谈判中显著优于vanilla策略和固定情感策略。EvoEmo实现了更高的谈判成功率(提升超过10%),更高的谈判效率(平均回合数减少超过15%),以及更高的买方节省(平均节省金额增加超过8%)。消融研究进一步验证了动态情感表达策略的有效性。

🎯 应用场景

EvoEmo的研究成果可应用于各种人机交互场景,例如在线客服、商务谈判、客户关系管理等。通过赋予AI智能体更丰富的情感表达能力,可以提高用户满意度、增强信任感,并最终提升业务效率。未来,该技术有望扩展到更复杂的社交互动场景,例如心理咨询、教育辅导等。

📄 摘要(原文)

Recent research on Chain-of-Thought (CoT) reasoning in Large Language Models (LLMs) has demonstrated that agents can engage in \textit{complex}, \textit{multi-turn} negotiations, opening new avenues for agentic AI. However, existing LLM agents largely overlook the functional role of emotions in such negotiations, instead generating passive, preference-driven emotional responses that make them vulnerable to manipulation and strategic exploitation by adversarial counterparts. To address this gap, we present EvoEmo, an evolutionary reinforcement learning framework that optimizes dynamic emotional expression in negotiations. EvoEmo models emotional state transitions as a Markov Decision Process and employs population-based genetic optimization to evolve high-reward emotion policies across diverse negotiation scenarios. We further propose an evaluation framework with two baselines -- vanilla strategies and fixed-emotion strategies -- for benchmarking emotion-aware negotiation. Extensive experiments and ablation studies show that EvoEmo consistently outperforms both baselines, achieving higher success rates, higher efficiency, and increased buyer savings. This findings highlight the importance of adaptive emotional expression in enabling more effective LLM agents for multi-turn negotiation.