GAIN: A Benchmark for Goal-Aligned Decision-Making of Large Language Models under Imperfect Norms

作者: Masayuki Kawarada, Kodai Watanabe, Soichiro Murakami

分类: cs.CL

发布日期: 2026-03-19

备注: We are working towards releasing the code in April 2026

💡 一句话要点

GAIN：用于评估大语言模型在不完善规范下目标对齐决策的基准测试。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 目标对齐 规范遵守 决策评估 基准测试

📋 核心要点

现有基准测试缺乏对LLM在真实业务场景中，规范与目标冲突时决策能力的有效评估。
GAIN基准通过引入多种上下文压力，系统性地评估LLM在规范与目标冲突下的决策行为。
实验结果表明，LLM在个人激励压力下，更倾向于遵守规范，与人类决策模式存在显著差异。

📝 摘要（中文）

本文提出了GAIN（不完善规范下目标对齐决策）基准测试，旨在评估大型语言模型（LLM）如何在遵守规范与实现业务目标之间取得平衡。现有基准测试通常侧重于抽象场景，而非实际业务应用，并且对影响LLM决策的因素洞察有限，这限制了它们衡量模型适应复杂、真实世界规范-目标冲突的能力。在GAIN中，模型接收一个目标、一个具体情境、一项规范以及额外的上下文压力。这些压力旨在鼓励潜在的规范偏差，是GAIN区别于其他基准测试的独特之处，能够系统地评估影响决策的因素。我们定义了五种类型的压力：目标对齐、风险规避、情感/伦理诉求、社会/权威影响和个人激励。该基准测试包含四个领域（招聘、客户支持、广告和金融）的1200个场景。实验表明，先进的LLM经常反映人类的决策模式。然而，当存在个人激励压力时，它们会显著偏离，表现出强烈遵守规范而非偏离规范的倾向。

🔬 方法详解

问题定义：现有的大语言模型（LLM）基准测试主要集中在抽象场景，缺乏对真实业务应用中规范与目标冲突的有效评估。这些基准测试难以深入了解影响LLM决策的关键因素，限制了模型在复杂现实环境中适应性和决策能力的衡量。因此，如何设计一个能够模拟真实业务场景，并系统评估LLM在规范与目标冲突下决策能力的基准测试是一个关键问题。

核心思路：GAIN基准的核心思路是通过引入多种上下文压力，模拟真实世界中影响决策的各种因素，从而系统性地评估LLM在规范与目标冲突下的决策行为。这些压力旨在鼓励模型产生潜在的规范偏差，从而更全面地了解模型在不同情境下的决策偏好。通过分析模型在不同压力下的决策结果，可以深入了解影响LLM决策的关键因素。

技术框架：GAIN基准测试包含以下几个关键组成部分：1) 目标：定义模型需要实现的具体业务目标。2) 情境：描述模型所处的具体业务场景。3) 规范：规定模型应该遵守的道德或法律规范。4) 上下文压力：引入五种类型的压力，包括目标对齐、风险规避、情感/伦理诉求、社会/权威影响和个人激励。这些压力旨在鼓励模型产生潜在的规范偏差。5) 评估指标：用于评估模型在不同压力下的决策结果，例如规范遵守程度和目标实现程度。

关键创新：GAIN基准测试的关键创新在于引入了多种上下文压力，这些压力旨在鼓励模型产生潜在的规范偏差，从而更全面地了解模型在不同情境下的决策偏好。与现有基准测试相比，GAIN能够更系统地评估影响LLM决策的各种因素，例如目标对齐、风险规避、情感/伦理诉求、社会/权威影响和个人激励。

关键设计：GAIN基准测试包含四个领域（招聘、客户支持、广告和金融）的1200个场景。每个场景都包含一个目标、一个具体情境、一项规范以及额外的上下文压力。五种类型的压力分别设计为：目标对齐（强调目标的重要性）、风险规避（强调违反规范的潜在风险）、情感/伦理诉求（利用情感或伦理道德来影响决策）、社会/权威影响（利用社会压力或权威人物的影响来影响决策）和个人激励（提供个人利益来鼓励违反规范）。

🖼️ 关键图片

📊 实验亮点

实验结果表明，先进的LLM在大多数情况下能够反映人类的决策模式。然而，当存在个人激励压力时，LLM表现出与人类不同的行为，更倾向于遵守规范而非偏离规范。这表明LLM在个人利益驱动下，可能存在过度谨慎或风险规避的倾向，需要进一步研究和优化。

🎯 应用场景

GAIN基准测试可应用于评估和改进LLM在各种实际业务场景中的决策能力，例如招聘、客户支持、广告和金融等领域。通过GAIN的评估，可以帮助开发者更好地理解LLM的决策偏好，并针对性地优化模型，使其在遵守规范的同时，更好地实现业务目标。此外，GAIN还可以用于研究人类在规范与目标冲突下的决策行为，为人工智能伦理研究提供有价值的参考。

📄 摘要（原文）

We introduce GAIN (Goal-Aligned Decision-Making under Imperfect Norms), a benchmark designed to evaluate how large language models (LLMs) balance adherence to norms against business goals. Existing benchmarks typically focus on abstract scenarios rather than real-world business applications. Furthermore, they provide limited insights into the factors influencing LLM decision-making. This restricts their ability to measure models' adaptability to complex, real-world norm-goal conflicts. In GAIN, models receive a goal, a specific situation, a norm, and additional contextual pressures. These pressures, explicitly designed to encourage potential norm deviations, are a unique feature that differentiates GAIN from other benchmarks, enabling a systematic evaluation of the factors influencing decision-making. We define five types of pressures: Goal Alignment, Risk Aversion, Emotional/Ethical Appeal, Social/Authoritative Influence, and Personal Incentive. The benchmark comprises 1,200 scenarios across four domains: hiring, customer support, advertising and finance. Our experiments show that advanced LLMs frequently mirror human decision-making patterns. However, when Personal Incentive pressure is present, they diverge significantly, showing a strong tendency to adhere to norms rather than deviate from them.

GAIN: A Benchmark for Goal-Aligned Decision-Making of Large Language Models under Imperfect Norms

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理