Framing the Game: How Context Shapes LLM Decision-Making
作者: Isaac Robinson, John Burden
分类: cs.CL, cs.AI, cs.GT
发布日期: 2025-03-05
💡 一句话要点
提出情境框架评估方法,揭示LLM决策对上下文的敏感性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 情境框架 决策制定 评估方法 博弈论
📋 核心要点
- 现有LLM评估方法忽略了情境框架对模型决策的影响,无法准确反映真实应用场景。
- 论文提出一种新颖的评估框架,通过程序化生成多样化场景,系统性地改变评估实例的关键特征。
- 实验表明,LLM的决策在很大程度上是可预测的,但对情境框架效应高度敏感,需要动态评估。
📝 摘要(中文)
大型语言模型(LLM)越来越多地部署在各种情境中以支持决策。虽然现有的评估方法有效地探测了模型潜在的能力,但它们往往忽略了情境框架对感知到的理性决策的影响。在本研究中,我们引入了一种新颖的评估框架,该框架系统地改变了评估实例的关键特征,并通过程序化生成小品来创建高度多样化的场景。通过分析具有相同底层博弈结构的LLM在不同情境下的决策模式,我们发现了LLM响应中显著的情境可变性。我们的研究结果表明,这种可变性在很大程度上是可预测的,但对框架效应高度敏感。我们的结果强调了对实际部署进行动态的、情境感知的评估方法的需求。
🔬 方法详解
问题定义:论文旨在解决LLM在不同情境下决策一致性的问题。现有评估方法主要关注模型的能力本身,忽略了情境因素对决策的影响,导致模型在实际应用中表现出不可预测的行为。这种情境敏感性会降低LLM在决策支持方面的可靠性。
核心思路:论文的核心思路是通过系统性地改变评估实例的情境框架,观察LLM在相同底层博弈结构下的决策变化。通过分析这些变化,可以揭示LLM决策对不同情境因素的敏感程度,从而更好地理解和预测LLM的行为。
技术框架:该评估框架包含以下主要步骤:1) 定义关键情境特征;2) 程序化生成包含不同情境特征的 vignettes (小品);3) 使用相同的底层博弈结构,在不同的 vignettes 中评估 LLM 的决策;4) 分析 LLM 在不同情境下的决策模式,识别情境因素对决策的影响。
关键创新:该研究的关键创新在于提出了一种动态的、情境感知的评估方法。与传统的静态评估方法不同,该方法能够系统性地探索情境因素对 LLM 决策的影响,从而更全面地评估 LLM 的性能。此外,程序化生成 vignettes 的方法可以高效地创建大量多样化的评估实例。
关键设计:论文的关键设计包括:1) 精心选择关键的情境特征,例如参与者的角色、博弈的背景等;2) 设计程序化生成 vignettes 的算法,确保 vignettes 的多样性和可控性;3) 使用标准的博弈论模型作为底层博弈结构,例如囚徒困境、最后通牒博弈等;4) 采用统计方法分析 LLM 在不同情境下的决策模式,例如方差分析、回归分析等。
🖼️ 关键图片
📊 实验亮点
研究表明,LLM的决策对情境框架高度敏感,即使在相同的底层博弈结构下,不同的情境描述也会导致LLM做出不同的决策。这种情境敏感性在很大程度上是可预测的,但需要动态的、情境感知的评估方法才能准确评估LLM的性能。该研究为LLM的实际部署提供了重要的指导。
🎯 应用场景
该研究成果可应用于LLM在决策支持、智能客服、自动驾驶等领域的部署。通过了解LLM对不同情境的敏感性,可以设计更鲁棒、更可靠的LLM系统。此外,该评估框架可以帮助开发者更好地理解和调试LLM,提高LLM的性能和安全性,并为未来的情境感知LLM研究奠定基础。
📄 摘要(原文)
Large Language Models (LLMs) are increasingly deployed across diverse contexts to support decision-making. While existing evaluations effectively probe latent model capabilities, they often overlook the impact of context framing on perceived rational decision-making. In this study, we introduce a novel evaluation framework that systematically varies evaluation instances across key features and procedurally generates vignettes to create highly varied scenarios. By analyzing decision-making patterns across different contexts with the same underlying game structure, we uncover significant contextual variability in LLM responses. Our findings demonstrate that this variability is largely predictable yet highly sensitive to framing effects. Our results underscore the need for dynamic, context-aware evaluation methodologies for real-world deployments.