RoleConflictBench: A Benchmark of Role Conflict Scenarios for Evaluating LLMs' Contextual Sensitivity

📄 arXiv: 2509.25897v1 📥 PDF

作者: Jisu Shin, Hoyun Song, Juhyun Oh, Changgeon Ko, Eunsu Kim, Chani Jung, Alice Oh

分类: cs.CL, cs.AI, cs.CY

发布日期: 2025-09-30


💡 一句话要点

RoleConflictBench:评估LLM在角色冲突情境下上下文敏感性的基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 角色冲突 上下文敏感性 社会偏见 基准数据集

📋 核心要点

  1. 现有方法在评估LLM社会能力时,侧重于有明确答案的场景,忽略了角色冲突这种需要上下文理解的复杂社会困境。
  2. RoleConflictBench旨在通过构建包含角色期望和情境紧急程度变化的冲突场景,评估LLM的上下文敏感性。
  3. 实验结果表明,LLM在角色冲突情境中表现出一定的上下文敏感性,但决策更多受固有社会角色偏见的影响。

📝 摘要(中文)

人类经常面临角色冲突——多种角色期望相互冲突且无法同时满足的社会困境。随着大型语言模型(LLM)在人类决策中发挥越来越大的作用,理解它们在复杂社会情境中的行为至关重要。以往的研究主要在具有预定义正确答案的背景下评估LLM的社会能力,而角色冲突代表着本质上模糊的社会困境,需要上下文敏感性:即识别并适当权衡情境线索的能力,这些线索可以从根本上改变决策优先级。为了弥补这一差距,我们引入了RoleConflictBench,这是一个新颖的基准,旨在评估LLM在复杂社会困境中的上下文敏感性。我们的基准采用三阶段流程,生成了超过13K个跨65个角色的真实角色冲突场景,系统地改变了它们相关的期望(即它们的责任和义务)和情境紧急程度。通过分析10个不同LLM的模型选择,我们发现虽然LLM显示出对这些情境线索做出反应的一些能力,但这种敏感性是不够的。相反,它们的决策主要受一种强大的、固有的偏见支配,这种偏见与社会角色而非情境信息有关。我们的分析量化了这些偏见,揭示了对家庭和职业领域角色的主要偏好,以及在大多数被评估模型中对男性角色和亚伯拉罕宗教的明确优先考虑。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLM)在处理角色冲突情境时的上下文敏感性不足的问题。现有的LLM评估方法通常侧重于具有明确正确答案的场景,无法有效评估LLM在复杂、模糊的社会困境中的决策能力。角色冲突情境的难点在于需要权衡不同角色的期望和情境的紧急程度,而现有的LLM在处理此类问题时,往往表现出对特定社会角色的偏见,无法充分考虑上下文信息。

核心思路:论文的核心思路是构建一个包含大量真实角色冲突场景的基准数据集RoleConflictBench,并利用该数据集系统地评估LLM在不同角色期望和情境紧急程度下的决策行为。通过分析LLM的决策结果,揭示其在角色冲突情境中的偏见和不足,从而为改进LLM的上下文敏感性提供指导。

技术框架:RoleConflictBench的构建流程包含三个主要阶段:1) 角色定义:定义65个不同的社会角色,并为每个角色赋予相应的责任和义务。2) 场景生成:基于定义的角色,生成超过13K个角色冲突场景,并系统地改变场景中角色期望和情境紧急程度。3) 模型评估:利用生成的角色冲突场景,评估10个不同的LLM的决策行为,并分析其决策结果。

关键创新:论文的关键创新在于提出了RoleConflictBench,这是一个专门用于评估LLM在角色冲突情境下上下文敏感性的基准数据集。该基准数据集包含大量真实的角色冲突场景,并系统地控制了角色期望和情境紧急程度等关键因素,为全面评估LLM的决策能力提供了基础。与现有方法相比,RoleConflictBench能够更有效地揭示LLM在复杂社会情境中的偏见和不足。

关键设计:在场景生成阶段,论文采用了一种三阶段的pipeline,以确保生成的场景具有真实性和多样性。具体来说,首先定义角色及其期望,然后根据角色期望生成冲突情境,最后调整情境的紧急程度。在模型评估阶段,论文采用了多种指标来量化LLM的决策行为,包括角色偏好、性别偏好和宗教偏好等。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,LLM在角色冲突情境中表现出一定的上下文敏感性,但其决策主要受固有社会角色偏见的影响。具体来说,LLM更倾向于选择家庭和职业领域的角色,并对男性角色和亚伯拉罕宗教表现出明显的偏好。这些偏见的存在表明,LLM在处理复杂社会情境时仍存在不足,需要进一步改进。

🎯 应用场景

该研究成果可应用于提升LLM在社会责任、伦理决策等方面的能力。通过RoleConflictBench,可以系统地评估和改进LLM在处理复杂社会情境时的决策质量,减少其在实际应用中可能产生的偏见和负面影响。此外,该基准数据集也可用于训练更具社会意识和伦理敏感性的LLM。

📄 摘要(原文)

Humans often encounter role conflicts -- social dilemmas where the expectations of multiple roles clash and cannot be simultaneously fulfilled. As large language models (LLMs) become increasingly influential in human decision-making, understanding how they behave in complex social situations is essential. While previous research has evaluated LLMs' social abilities in contexts with predefined correct answers, role conflicts represent inherently ambiguous social dilemmas that require contextual sensitivity: the ability to recognize and appropriately weigh situational cues that can fundamentally alter decision priorities. To address this gap, we introduce RoleConflictBench, a novel benchmark designed to evaluate LLMs' contextual sensitivity in complex social dilemmas. Our benchmark employs a three-stage pipeline to generate over 13K realistic role conflict scenarios across 65 roles, systematically varying their associated expectations (i.e., their responsibilities and obligations) and situational urgency levels. By analyzing model choices across 10 different LLMs, we find that while LLMs show some capacity to respond to these contextual cues, this sensitivity is insufficient. Instead, their decisions are predominantly governed by a powerful, inherent bias related to social roles rather than situational information. Our analysis quantifies these biases, revealing a dominant preference for roles within the Family and Occupation domains, as well as a clear prioritization of male roles and Abrahamic religions across most evaluatee models.