RoleCDE:Benchmarking and Mitigating Role-Alignment Trade-offs in Role-Playing Agents

📄 arXiv: 2606.01552v1 📥 PDF

作者: Huayi Lai, Shichao Song, Simin Niu, Hanyu Wang, Jiawei Yang, Zhouxing Wang, Zhiqiang Yin, Xun Liang

分类: cs.AI

发布日期: 2026-06-01

备注: 23pages

🔗 代码/项目: GITHUB


💡 一句话要点

RoleCDE:用于评估和缓解角色扮演智能体中角色对齐权衡的基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 角色扮演智能体 大型语言模型 价值对齐 认知困境 基准测试

📋 核心要点

  1. 现有角色扮演智能体基准缺乏对角色价值观冲突下决策的深入评估,无法有效衡量智能体的角色对齐能力。
  2. RoleCDE基准通过构建角色价值观与对齐约束之间的冲突场景,评估智能体在角色认知、价值冲突解决和决策倾向上的表现。
  3. 实验表明,主流LLM存在“角色价值解耦”现象,即优先选择对齐和道德一致的决策,而基于RoleCDE的微调可以有效缓解该问题。

📝 摘要(中文)

角色扮演智能体(RPAs)被广泛用于引导大型语言模型(LLMs)产生角色一致的行为,但现有的基准主要评估表面层面的保真度,并且对于角色对齐价值冲突下的决策制定提供的洞察有限。为了解决这个差距,我们引入了RoleCDE,这是第一个旨在评估RPAs在角色特定价值观和面向对齐的约束之间结构化冲突下的基准。RoleCDE将角色感知的决策制定形式化为认知困境场景,共同评估角色-场景的 grounding、价值冲突解决和决策倾向。该基准以大规模方式构建,涵盖约8k个不同的角色配置文件和场景,以及跨三个难度级别和八个角色类别的近24k个困境实例。对几个主流LLMs的评估揭示了一种“角色价值解耦”现象,即当角色特定价值观与对齐和道德一致的决策发生冲突时,即使在明确的角色条件下,智能体也会系统地默认选择对齐和道德一致的决策。这种行为在很大程度上不受困境难度的影响,但在角色类别之间差异很大。我们进一步表明,基于RoleCDE的微调通过改善价值权衡推理来有效缓解这种解耦,同时保持一般的角色扮演保真度和一般推理性能。代码可在https://github.com/rabbitrose/RoleCDE获取。

🔬 方法详解

问题定义:现有角色扮演智能体的评估基准主要关注表面层面的角色一致性,缺乏对深层次角色价值观冲突下的决策能力的评估。当角色特定价值观与通用道德准则或对齐目标发生冲突时,现有方法难以有效衡量智能体在角色扮演中的权衡能力,导致智能体倾向于选择“安全”但可能不符合角色设定的行为。

核心思路:RoleCDE的核心思路是构建一个包含角色价值观与对齐约束之间结构化冲突的认知困境场景,通过评估智能体在这些场景下的决策倾向,来衡量其角色扮演的深度和对角色价值观的理解程度。这种方法旨在揭示智能体在面对冲突时的真实行为模式,并促进对角色扮演智能体更全面的评估。

技术框架:RoleCDE的整体框架包括以下几个主要模块:1) 角色和场景生成模块:用于生成多样化的角色配置文件和相应的场景描述。2) 困境构建模块:基于角色和场景,构建角色价值观与对齐约束之间存在冲突的困境实例。3) 评估模块:评估智能体在困境场景下的决策,并分析其角色-场景 grounding、价值冲突解决和决策倾向。4) 微调模块:使用RoleCDE数据对智能体进行微调,以缓解角色价值解耦现象。

关键创新:RoleCDE的关键创新在于其对角色扮演智能体评估方式的转变,从关注表面一致性转向关注深层次的价值冲突解决能力。通过构建结构化的认知困境场景,RoleCDE能够更有效地揭示智能体在角色扮演中的不足,并为改进智能体的角色扮演能力提供指导。此外,大规模的角色和场景数据生成也是一个重要的创新点。

关键设计:RoleCDE的关键设计包括:1) 多样化的角色配置文件:涵盖不同背景、性格和价值观的角色。2) 结构化的困境场景:确保角色价值观与对齐约束之间存在明确的冲突。3) 多种评估指标:用于全面评估智能体的角色-场景 grounding、价值冲突解决和决策倾向。4) 三个难度级别:用于评估智能体在不同难度下的表现。5) 八个角色类别:用于分析不同角色类型之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,主流LLM在RoleCDE基准上存在显著的“角色价值解耦”现象,即倾向于选择对齐和道德一致的决策,而非角色特定价值观。通过基于RoleCDE的微调,可以有效缓解这种解耦现象,提高智能体在角色扮演中的价值观权衡能力,同时保持一般的角色扮演保真度和推理性能。具体的性能提升数据未知。

🎯 应用场景

RoleCDE的研究成果可应用于提升各种需要角色扮演的AI应用,例如游戏中的NPC、虚拟助手、教育领域的角色扮演模拟等。通过提高智能体在复杂情境下的角色一致性和价值观权衡能力,可以增强用户体验,提高AI应用的实用性和可靠性。此外,该研究也为未来开发更具同理心和道德意识的AI系统提供了新的思路。

📄 摘要(原文)

Role-playing agents(RPAs) are widely used to steer large language models(LLMs) toward role-consistent behavior, yet existing benchmarks mainly evaluate surface-level fidelity and offer limited insight into decision making under role-alignment value conflicts. To address this gap, we introduce RoleCDE, the first benchmark designed to evaluate RPAs under structured conflicts between role-specific values and alignment-oriented constraints. RoleCDE formulates role-aware decision making as cognitive dilemma scenarios, jointly evaluating role-scenario grounding, value conflict resolution, and decision tendencies. The benchmark is constructed at scale, covering approximately 8k diverse role profiles and scenarios and nearly 24k dilemma instances across three difficulty levels and eight role categories. Evaluation of several mainstream LLMs reveals a "Role Value Decoupling" phenomenon, where agents systematically default to alignment-and morality-consistent decisions rather than role-specific values when the two conflict, even under explicit role conditioning. This behavior is largely invariant to dilemma difficulty but varies substantially across role categories. We further show that RoleCDE-based fine-tuning effectively mitigates this decoupling by improving value trade-off reasoning, while preserving general role-playing fidelity and general reasoning performance. Code is available at: https://github.com/rabbitrose/RoleCDE.