Generative Value Conflicts Reveal LLM Priorities

📄 arXiv: 2509.25369 📥 PDF

作者: Andy Liu, Kshitish Ghate, Mona Diab, Daniel Fried, Atoosa Kasirzadeh, Max Kleiman-Weiner

分类: cs.CL, cs.AI, cs.LG

发布日期: 2026-02-28


💡 一句话要点

ConflictScope:揭示LLM在价值冲突下的优先级偏好,并提出系统提示对齐方法。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 价值对齐 价值冲突 系统提示 伦理安全

📋 核心要点

  1. 现有LLM对齐方法缺乏对价值冲突场景的有效处理,导致模型在实际部署中难以权衡不同价值。
  2. ConflictScope通过自动生成价值冲突场景,并分析LLM的自由文本回复,来揭示其内在的价值优先级。
  3. 实验表明,开放式价值冲突会使模型偏离保护性价值,但通过系统提示可以显著提升价值对齐效果。

📝 摘要(中文)

本文提出了一种名为ConflictScope的自动流程,用于评估大型语言模型(LLM)在面对价值冲突时如何进行优先级排序。针对现有对齐数据集中价值冲突场景稀缺的问题,ConflictScope自动生成LLM需要在多个用户自定义价值之间进行权衡的场景。该流程使用LLM生成的“用户提示”来引导目标模型,并通过评估其自由文本回复来推断模型对不同价值的排序。研究发现,在更开放的价值冲突环境中,模型会减少对保护性价值(如无害性)的支持,而更多地支持个人价值(如用户自主性)。然而,在模型的系统提示中包含详细的价值排序可以使对齐效果提高14%,表明系统提示在价值冲突下可以有效对齐LLM的行为。这项工作强调了评估模型价值优先级的重要性,并为未来的研究奠定了基础。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)对齐研究主要关注于将模型与特定的一组价值对齐,但忽略了在实际应用中,LLM经常需要在不同的价值之间进行权衡。现有的对齐数据集缺乏足够的价值冲突场景,使得我们难以评估和控制LLM在面对价值冲突时的行为。因此,如何有效地评估和引导LLM在价值冲突下的优先级排序成为了一个重要的挑战。

核心思路:本文的核心思路是构建一个自动化的流程,用于生成价值冲突场景,并分析LLM在这些场景下的行为,从而揭示其内在的价值优先级。通过分析LLM的自由文本回复,我们可以推断出模型在不同价值之间的权衡策略。此外,本文还探索了使用系统提示来引导LLM在价值冲突下做出更符合期望的决策。

技术框架:ConflictScope流程主要包含以下几个阶段:1) 价值集合定义:用户定义一组需要进行评估的价值。2) 冲突场景生成:利用LLM自动生成涉及两个或多个价值冲突的场景。3) 用户提示生成:使用LLM为每个冲突场景生成一个用户提示,引导目标模型进行回复。4) 模型回复:目标LLM根据用户提示生成自由文本回复。5) 价值排序推断:分析LLM的回复,推断其对不同价值的排序。6) 对齐评估:将模型的价值排序与目标排序进行比较,评估对齐效果。

关键创新:本文最重要的技术创新在于提出了一个自动化的价值冲突场景生成和评估流程。与以往依赖人工标注或预定义规则的方法不同,ConflictScope利用LLM的生成能力,可以高效地生成多样化的价值冲突场景,从而更全面地评估LLM的价值优先级。此外,本文还探索了使用系统提示来引导LLM在价值冲突下做出更符合期望的决策,并验证了其有效性。

关键设计:在冲突场景生成阶段,使用了特定的prompt工程技术来引导LLM生成高质量的冲突场景。在价值排序推断阶段,使用了自然语言处理技术来分析LLM的自由文本回复,并提取出与不同价值相关的关键词和情感倾向。在系统提示设计方面,尝试了不同的提示策略,包括明确的价值排序和更细粒度的价值描述,以优化对齐效果。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在开放式价值冲突环境中,LLM会减少对保护性价值的支持,而更多地支持个人价值。然而,通过在系统提示中包含详细的价值排序,可以将LLM的价值对齐效果提高14%。这表明系统提示是一种有效的价值对齐方法,但仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于开发更安全、更负责任的LLM助手。通过了解LLM在价值冲突下的行为,可以更好地控制其决策过程,避免产生不符合伦理或社会规范的输出。此外,该方法还可以用于评估不同LLM的价值对齐程度,为用户选择合适的模型提供参考。

📄 摘要(原文)

Past work seeks to align large language model (LLM)-based assistants with a target set of values, but such assistants are frequently forced to make tradeoffs between values when deployed. In response to the scarcity of value conflict in existing alignment datasets, we introduce ConflictScope, an automatic pipeline to evaluate how LLMs prioritize different values. Given a user-defined value set, ConflictScope automatically generates scenarios in which a language model faces a conflict between two values sampled from the set. It then prompts target models with an LLM-written "user prompt" and evaluates their free-text responses to elicit a ranking over values in the value set. Comparing results between multiple-choice and open-ended evaluations, we find that models shift away from supporting protective values, such as harmlessness, and toward supporting personal values, such as user autonomy, in more open-ended value conflict settings. However, including detailed value orderings in models' system prompts improves alignment with a target ranking by 14%, showing that system prompting can achieve moderate success at aligning LLM behavior under value conflict. Our work demonstrates the importance of evaluating value prioritization in models and provides a foundation for future work in this area.