RoleConflictBench: A Benchmark of Role Conflict Scenarios for Evaluating LLMs' Contextual Sensitivity

📄 arXiv: 2509.25897v1 📥 PDF

作者: Jisu Shin, Hoyun Song, Juhyun Oh, Changgeon Ko, Eunsu Kim, Chani Jung, Alice Oh

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-09-30


💡 一句话要点

提出RoleConflictBench基准,评估LLM在角色冲突场景下的情境敏感性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 角色冲突 情境敏感性 社会智能 基准测试 偏见分析 伦理决策

📋 核心要点

  1. 现有方法在评估LLM的社会能力时,主要关注具有预定义正确答案的场景,忽略了角色冲突这种需要情境敏感性的复杂社会困境。
  2. RoleConflictBench通过生成包含角色期望和社会紧急程度变化的真实角色冲突场景,来评估LLM在复杂社会困境中的情境敏感性。
  3. 实验结果表明,LLM在角色冲突场景中表现出一定的情境敏感性,但其决策更多地受到社会角色偏见的影响,而非情境信息。

📝 摘要(中文)

人类经常面临角色冲突——多种角色期望相互冲突且无法同时满足的社会困境。随着大型语言模型(LLM)在人类决策中发挥越来越大的影响,理解它们在复杂社会情境中的行为至关重要。以往研究评估了LLM在具有预定义正确答案的背景下的社会能力,而角色冲突代表着本质上模糊的社会困境,需要情境敏感性:识别并适当权衡情境线索的能力,这些线索可以从根本上改变决策优先级。为了弥补这一差距,我们引入了RoleConflictBench,这是一个新颖的基准,旨在评估LLM在复杂社会困境中的情境敏感性。我们的基准采用三阶段流程,生成了超过13K个跨65个角色的真实角色冲突场景,系统地改变了它们相关的期望(即它们的责任和义务)和情境紧急程度。通过分析10个不同LLM的模型选择,我们发现虽然LLM显示出对这些情境线索做出反应的一些能力,但这种敏感性是不够的。相反,它们的决策主要受一种强大的、固有的与社会角色相关的偏见所支配,而不是情境信息。我们的分析量化了这些偏见,揭示了对家庭和职业领域内角色的主要偏好,以及在大多数被评估模型中对男性角色和亚伯拉罕宗教的明确优先考虑。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在处理角色冲突场景时,缺乏足够情境敏感性的问题。现有评估LLM社会能力的方法,通常依赖于具有预定义正确答案的场景,无法有效衡量LLM在复杂、模糊的社会困境中的决策能力。角色冲突场景的特殊性在于,它没有绝对正确的答案,需要根据具体情境权衡不同角色的期望和责任。

核心思路:论文的核心思路是构建一个专门用于评估LLM在角色冲突场景下情境敏感性的基准测试集RoleConflictBench。该基准通过系统地生成包含不同角色、角色期望和社会紧急程度变化的场景,来考察LLM是否能够根据情境信息做出合理的决策。通过分析LLM在这些场景中的选择,可以量化其情境敏感性,并识别其潜在的偏见。

技术框架:RoleConflictBench的构建包含三个主要阶段:1) 角色定义:定义了65个不同的社会角色,并为每个角色赋予了相应的责任和义务。2) 场景生成:利用一个三阶段流程,生成了超过13K个真实的角色冲突场景,这些场景在角色期望和社会紧急程度方面存在差异。3) 模型评估:使用10个不同的LLM在生成的场景中进行决策,并分析其选择,以评估其情境敏感性和潜在偏见。

关键创新:该论文的关键创新在于提出了RoleConflictBench,这是一个专门用于评估LLM在角色冲突场景下情境敏感性的基准测试集。与以往的评估方法相比,RoleConflictBench更加关注LLM在复杂、模糊的社会困境中的决策能力,能够更全面地评估LLM的社会智能。此外,该研究还量化了LLM在角色冲突场景中存在的偏见,例如对家庭和职业领域角色的偏好,以及对男性角色和亚伯拉罕宗教的优先考虑。

关键设计:在场景生成阶段,论文系统地改变了角色的期望(责任和义务)和情境紧急程度,以创建多样化的角色冲突场景。通过控制这些变量,可以更精确地评估LLM对不同情境线索的敏感性。在模型评估阶段,论文分析了LLM在不同场景中的选择,并使用统计方法量化了其情境敏感性和潜在偏见。具体的技术细节包括对角色期望和社会紧急程度的量化方法,以及用于分析LLM选择的统计指标。

📊 实验亮点

实验结果表明,虽然LLM在角色冲突场景中表现出一定的情境敏感性,但其决策更多地受到社会角色偏见的影响。具体而言,LLM更倾向于选择家庭和职业领域的角色,并且对男性角色和亚伯拉罕宗教存在明显的偏好。这些偏见的存在表明,LLM在处理复杂社会情境时,仍然存在很大的改进空间。

🎯 应用场景

该研究成果可应用于提升LLM在社会互动和决策制定方面的能力。通过RoleConflictBench,可以系统地评估和改进LLM在处理复杂社会情境时的情境敏感性,减少其潜在的偏见。这对于开发更可靠、更公正的AI系统,尤其是在涉及伦理和社会责任的应用领域,具有重要意义。未来,该基准可以扩展到更多角色和场景,以更全面地评估LLM的社会智能。

📄 摘要(原文)

Humans often encounter role conflicts -- social dilemmas where the expectations of multiple roles clash and cannot be simultaneously fulfilled. As large language models (LLMs) become increasingly influential in human decision-making, understanding how they behave in complex social situations is essential. While previous research has evaluated LLMs' social abilities in contexts with predefined correct answers, role conflicts represent inherently ambiguous social dilemmas that require contextual sensitivity: the ability to recognize and appropriately weigh situational cues that can fundamentally alter decision priorities. To address this gap, we introduce RoleConflictBench, a novel benchmark designed to evaluate LLMs' contextual sensitivity in complex social dilemmas. Our benchmark employs a three-stage pipeline to generate over 13K realistic role conflict scenarios across 65 roles, systematically varying their associated expectations (i.e., their responsibilities and obligations) and situational urgency levels. By analyzing model choices across 10 different LLMs, we find that while LLMs show some capacity to respond to these contextual cues, this sensitivity is insufficient. Instead, their decisions are predominantly governed by a powerful, inherent bias related to social roles rather than situational information. Our analysis quantifies these biases, revealing a dominant preference for roles within the Family and Occupation domains, as well as a clear prioritization of male roles and Abrahamic religions across most evaluatee models.