GAIN: A Benchmark for Goal-Aligned Decision-Making of Large Language Models under Imperfect Norms
作者: Masayuki Kawarada, Kodai Watanabe, Soichiro Murakami
分类: cs.CL
发布日期: 2026-03-19
备注: We are working towards releasing the code in April 2026
💡 一句话要点
GAIN:用于评估大语言模型在不完善规范下目标对齐决策的基准测试。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 目标对齐 规范遵守 决策评估 基准测试
📋 核心要点
- 现有基准测试缺乏对LLM在真实业务场景中,规范与目标冲突时决策能力的有效评估。
- GAIN基准通过引入多种上下文压力,系统性地评估LLM在规范与目标冲突下的决策行为。
- 实验结果表明,LLM在个人激励压力下,更倾向于遵守规范,与人类决策模式存在显著差异。
📝 摘要(中文)
本文提出了GAIN(不完善规范下目标对齐决策)基准测试,旨在评估大型语言模型(LLM)如何在遵守规范与实现业务目标之间取得平衡。现有基准测试通常侧重于抽象场景,而非实际业务应用,并且对影响LLM决策的因素洞察有限,这限制了它们衡量模型适应复杂、真实世界规范-目标冲突的能力。在GAIN中,模型接收一个目标、一个具体情境、一项规范以及额外的上下文压力。这些压力旨在鼓励潜在的规范偏差,是GAIN区别于其他基准测试的独特之处,能够系统地评估影响决策的因素。我们定义了五种类型的压力:目标对齐、风险规避、情感/伦理诉求、社会/权威影响和个人激励。该基准测试包含四个领域(招聘、客户支持、广告和金融)的1200个场景。实验表明,先进的LLM经常反映人类的决策模式。然而,当存在个人激励压力时,它们会显著偏离,表现出强烈遵守规范而非偏离规范的倾向。
🔬 方法详解
问题定义:现有的大语言模型(LLM)基准测试主要集中在抽象场景,缺乏对真实业务应用中规范与目标冲突的有效评估。这些基准测试难以深入了解影响LLM决策的关键因素,限制了模型在复杂现实环境中适应性和决策能力的衡量。因此,如何设计一个能够模拟真实业务场景,并系统评估LLM在规范与目标冲突下决策能力的基准测试是一个关键问题。
核心思路:GAIN基准的核心思路是通过引入多种上下文压力,模拟真实世界中影响决策的各种因素,从而系统性地评估LLM在规范与目标冲突下的决策行为。这些压力旨在鼓励模型产生潜在的规范偏差,从而更全面地了解模型在不同情境下的决策偏好。通过分析模型在不同压力下的决策结果,可以深入了解影响LLM决策的关键因素。
技术框架:GAIN基准测试包含以下几个关键组成部分:1) 目标:定义模型需要实现的具体业务目标。2) 情境:描述模型所处的具体业务场景。3) 规范:规定模型应该遵守的道德或法律规范。4) 上下文压力:引入五种类型的压力,包括目标对齐、风险规避、情感/伦理诉求、社会/权威影响和个人激励。这些压力旨在鼓励模型产生潜在的规范偏差。5) 评估指标:用于评估模型在不同压力下的决策结果,例如规范遵守程度和目标实现程度。
关键创新:GAIN基准测试的关键创新在于引入了多种上下文压力,这些压力旨在鼓励模型产生潜在的规范偏差,从而更全面地了解模型在不同情境下的决策偏好。与现有基准测试相比,GAIN能够更系统地评估影响LLM决策的各种因素,例如目标对齐、风险规避、情感/伦理诉求、社会/权威影响和个人激励。
关键设计:GAIN基准测试包含四个领域(招聘、客户支持、广告和金融)的1200个场景。每个场景都包含一个目标、一个具体情境、一项规范以及额外的上下文压力。五种类型的压力分别设计为:目标对齐(强调目标的重要性)、风险规避(强调违反规范的潜在风险)、情感/伦理诉求(利用情感或伦理道德来影响决策)、社会/权威影响(利用社会压力或权威人物的影响来影响决策)和个人激励(提供个人利益来鼓励违反规范)。
🖼️ 关键图片
📊 实验亮点
实验结果表明,先进的LLM在大多数情况下能够反映人类的决策模式。然而,当存在个人激励压力时,LLM表现出与人类不同的行为,更倾向于遵守规范而非偏离规范。这表明LLM在个人利益驱动下,可能存在过度谨慎或风险规避的倾向,需要进一步研究和优化。
🎯 应用场景
GAIN基准测试可应用于评估和改进LLM在各种实际业务场景中的决策能力,例如招聘、客户支持、广告和金融等领域。通过GAIN的评估,可以帮助开发者更好地理解LLM的决策偏好,并针对性地优化模型,使其在遵守规范的同时,更好地实现业务目标。此外,GAIN还可以用于研究人类在规范与目标冲突下的决策行为,为人工智能伦理研究提供有价值的参考。
📄 摘要(原文)
We introduce GAIN (Goal-Aligned Decision-Making under Imperfect Norms), a benchmark designed to evaluate how large language models (LLMs) balance adherence to norms against business goals. Existing benchmarks typically focus on abstract scenarios rather than real-world business applications. Furthermore, they provide limited insights into the factors influencing LLM decision-making. This restricts their ability to measure models' adaptability to complex, real-world norm-goal conflicts. In GAIN, models receive a goal, a specific situation, a norm, and additional contextual pressures. These pressures, explicitly designed to encourage potential norm deviations, are a unique feature that differentiates GAIN from other benchmarks, enabling a systematic evaluation of the factors influencing decision-making. We define five types of pressures: Goal Alignment, Risk Aversion, Emotional/Ethical Appeal, Social/Authoritative Influence, and Personal Incentive. The benchmark comprises 1,200 scenarios across four domains: hiring, customer support, advertising and finance. Our experiments show that advanced LLMs frequently mirror human decision-making patterns. However, when Personal Incentive pressure is present, they diverge significantly, showing a strong tendency to adhere to norms rather than deviate from them.