Evaluating Behavioral Alignment in Conflict Dialogue: A Multi-Dimensional Comparison of LLM Agents and Humans

📄 arXiv: 2509.16394v1 📥 PDF

作者: Deuksin Kwon, Kaleen Shrestha, Bin Han, Elena Hayoung Lee, Gale Lucas

分类: cs.CL, cs.AI, cs.HC

发布日期: 2025-09-19

备注: Accepted to EMNLP 2025 (Main Conference)


💡 一句话要点

评估LLM在冲突对话中的行为一致性以提升人机交互

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 行为一致性 个性驱动 冲突对话 情感表达 战略行为 多轮对话 人机交互

📋 核心要点

  1. 现有的LLM在复杂情感和战略对话中与人类行为的一致性尚未得到充分评估,存在明显的研究空白。
  2. 本研究通过个性驱动的LLM模拟多轮冲突对话,评估其在语言风格、情感表达和战略行为上的一致性。
  3. 实验结果表明,GPT-4.1在语言和情感动态上与人类最为接近,而Claude-3.7-Sonnet在战略行为上表现最佳,揭示了LLM的潜在应用价值。

📝 摘要(中文)

大型语言模型(LLMs)在社会复杂、互动驱动的任务中越来越多地被应用,但它们在情感和战略复杂背景下模仿人类行为的能力仍未得到充分探索。本研究通过模拟多轮冲突对话,评估个性驱动的LLM在对抗性争端解决中的行为一致性。每个LLM都根据匹配的五因素个性特征进行引导,以控制个体差异并增强现实感。我们在语言风格、情感表达(如愤怒动态)和战略行为三个维度上评估一致性。结果显示,GPT-4.1在语言风格和情感动态上与人类的对齐程度最高,而Claude-3.7-Sonnet在战略行为上表现最佳。然而,仍存在显著的一致性差距。我们的研究为LLM与人类在社会复杂交互中的一致性建立了基准,强调了个性条件在对话建模中的潜力与局限性。

🔬 方法详解

问题定义:本研究旨在解决大型语言模型在复杂对话场景中与人类行为一致性不足的问题,尤其是在情感和战略互动方面的挑战。现有方法未能充分考虑个性特征对对话行为的影响。

核心思路:通过引入匹配的五因素个性特征,增强LLM在模拟对抗性争端解决中的现实感,从而提高其与人类的行为一致性。

技术框架:研究设计了一个多轮冲突对话的模拟框架,主要包括个性驱动的LLM生成模块、对话评估模块和一致性分析模块,确保全面评估LLM的表现。

关键创新:本研究的创新点在于首次系统性地评估个性驱动的LLM在复杂对话中的行为一致性,特别是在情感和战略维度上的表现,与现有方法相比,提供了更为细致的分析视角。

关键设计:在实验中,采用了五因素个性模型对LLM进行个性化设置,并通过特定的损失函数优化其生成的对话内容,确保其在语言风格和情感表达上的一致性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,GPT-4.1在语言风格和情感动态上与人类的对齐程度最高,达到了显著的提升,而Claude-3.7-Sonnet在战略行为上表现最佳,尽管仍存在显著的一致性差距,表明个性条件对对话建模的影响。

🎯 应用场景

该研究的潜在应用领域包括智能客服、在线调解和人机协作等场景,能够提升LLM在复杂社交互动中的表现,增强用户体验。未来,个性化对话模型可能在心理辅导、教育和娱乐等领域发挥更大作用。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly deployed in socially complex, interaction-driven tasks, yet their ability to mirror human behavior in emotionally and strategically complex contexts remains underexplored. This study assesses the behavioral alignment of personality-prompted LLMs in adversarial dispute resolution by simulating multi-turn conflict dialogues that incorporate negotiation. Each LLM is guided by a matched Five-Factor personality profile to control for individual variation and enhance realism. We evaluate alignment across three dimensions: linguistic style, emotional expression (e.g., anger dynamics), and strategic behavior. GPT-4.1 achieves the closest alignment with humans in linguistic style and emotional dynamics, while Claude-3.7-Sonnet best reflects strategic behavior. Nonetheless, substantial alignment gaps persist. Our findings establish a benchmark for alignment between LLMs and humans in socially complex interactions, underscoring both the promise and the limitations of personality conditioning in dialogue modeling.