Noise, Adaptation, and Strategy: Assessing LLM Fidelity in Decision-Making
作者: Yuanjun Feng, Vivek Choudhary, Yash Raj Shrestha
分类: cs.CE, cs.AI
发布日期: 2025-08-21
备注: Accepted to EMNLP 2025 (Main Conference)
💡 一句话要点
提出基于过程的评估框架,评估LLM在决策中模拟人类行为的保真度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 决策制定 行为模拟 评估框架 社会科学 人机交互 上下文学习
📋 核心要点
- 现有研究较少关注LLM模拟人类决策的变异性和适应性能力,这限制了LLM在社会科学模拟中的应用。
- 论文提出一个面向过程的评估框架,通过逐步干预来评估LLM在不同程度的外部指导和人类噪声下的适应性。
- 实验表明,LLM在默认情况下会收敛于稳定保守的策略,与人类行为存在差距,且难以完全模仿人类的战略变异性。
📝 摘要(中文)
大型语言模型(LLM)越来越多地应用于社会科学模拟中。虽然它们在推理和优化任务上的性能已经得到了广泛的评估,但对其模拟人类决策的变异性和适应性的能力关注较少。我们提出了一个面向过程的评估框架,通过渐进式干预(内在性、指导和模仿)来检验LLM智能体在不同程度的外部指导和人类噪声下的适应情况。我们在两个经典的经济学任务(第二价格拍卖中的非理性行为和报童问题中的决策偏差)上验证了该框架,结果表明LLM与人类行为之间存在差距。我们发现,默认情况下,LLM会收敛于稳定且保守的策略,这与观察到的人类行为不同。风险框架指令可以预测性地影响LLM的行为,但无法复制类似人类的多样性。通过上下文学习纳入人类数据可以缩小差距,但未能达到人类受试者的战略变异性。这些结果突出了行为保真度方面持续存在的对齐差距,并表明未来的LLM评估应考虑更多过程层面的真实性。我们提出了一种面向过程的方法来评估LLM在动态决策任务中的表现,为它们在社会科学研究的合成数据中的应用提供指导。
🔬 方法详解
问题定义:论文旨在解决LLM在模拟人类决策行为时的保真度问题。现有方法主要关注LLM在推理和优化任务上的性能,而忽略了LLM在模拟人类决策过程中的变异性和适应性。这导致LLM在社会科学模拟中的应用受到限制,因为它们可能无法准确反映真实的人类行为。
核心思路:论文的核心思路是通过一个面向过程的评估框架,逐步干预LLM的行为,并观察其在不同程度的外部指导和人类噪声下的适应情况。通过这种方式,可以更全面地评估LLM在模拟人类决策行为时的保真度,并识别其与人类行为之间的差距。
技术框架:该框架包含三个主要的干预阶段: 1. 内在性(Intrinsicality):评估LLM在没有外部指导的情况下,基于其内在知识和推理能力做出的决策。 2. 指导(Instruction):通过提供风险框架指令,引导LLM的行为,并观察其对指令的响应。 3. 模仿(Imitation):通过上下文学习,将人类数据纳入LLM的决策过程,并观察其是否能够模仿人类的战略变异性。
关键创新:该论文的关键创新在于提出了一个面向过程的评估框架,该框架不仅关注LLM的最终决策结果,还关注其决策过程中的变异性和适应性。通过逐步干预LLM的行为,可以更全面地评估其在模拟人类决策行为时的保真度。此外,该框架还提供了一种系统的方法来识别LLM与人类行为之间的差距,并为改进LLM的决策能力提供了指导。
关键设计:论文使用两个经典的经济学任务(第二价格拍卖和报童问题)来验证该框架。在第二价格拍卖中,评估LLM的非理性行为;在报童问题中,评估LLM的决策偏差。通过比较LLM在不同干预阶段的行为与人类受试者的行为,可以评估LLM的保真度。论文还使用了不同的风险框架指令来引导LLM的行为,并使用了上下文学习来纳入人类数据。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在默认情况下会收敛于稳定保守的策略,与人类行为存在差距。风险框架指令可以预测性地影响LLM的行为,但无法复制类似人类的多样性。通过上下文学习纳入人类数据可以缩小差距,但未能达到人类受试者的战略变异性。这些结果强调了LLM在行为保真度方面与人类的差距,并为未来的LLM评估提供了指导。
🎯 应用场景
该研究成果可应用于社会科学研究中的合成数据生成,帮助研究人员构建更真实、更具代表性的模拟环境。通过提高LLM在模拟人类决策行为方面的保真度,可以更准确地预测社会现象,并为政策制定提供更可靠的依据。此外,该研究还可以应用于人机交互领域,帮助设计更自然、更符合人类行为习惯的智能体。
📄 摘要(原文)
Large language models (LLMs) are increasingly used in social science simulations. While their performance on reasoning and optimization tasks has been extensively evaluated, less attention has been paid to their ability to simulate human decision-making's variability and adaptability. We propose a process-oriented evaluation framework with progressive interventions (Intrinsicality, Instruction, and Imitation) to examine how LLM agents adapt under different levels of external guidance and human-derived noise. We validate the framework on two classic economics tasks, irrationality in the second-price auction and decision bias in the newsvendor problem, showing behavioral gaps between LLMs and humans. We find that LLMs, by default, converge on stable and conservative strategies that diverge from observed human behaviors. Risk-framed instructions impact LLM behavior predictably but do not replicate human-like diversity. Incorporating human data through in-context learning narrows the gap but fails to reach human subjects' strategic variability. These results highlight a persistent alignment gap in behavioral fidelity and suggest that future LLM evaluations should consider more process-level realism. We present a process-oriented approach for assessing LLMs in dynamic decision-making tasks, offering guidance for their application in synthetic data for social science research.