Predicting Effects, Missing Distributions: Evaluating LLMs as Human Behavior Simulators in Operations Management
作者: Runze Zhang, Xiaowei Zhang, Mingyang Zhao
分类: cs.LG, cs.AI
发布日期: 2025-09-30
💡 一句话要点
评估LLM在运营管理中作为人类行为模拟器的能力:效果预测与分布对齐
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 行为运营 人类行为模拟 决策偏差 分布对齐
📋 核心要点
- 现有行为运营研究依赖昂贵的实验和调查,而LLM有望提供低成本的替代方案,但其有效性尚待评估。
- 论文核心在于评估LLM在复制人类行为运营决策方面的能力,关注假设检验结果和响应分布两个关键方面。
- 实验表明,LLM能较好地重现假设层面的效应,但响应分布与人类数据存在偏差,通过干预措施可以改善分布对齐。
📝 摘要(中文)
大型语言模型(LLM)正成为模拟商业、经济和社会科学领域人类行为的新兴工具,为实验室实验、实地研究和调查提供了一种低成本的补充方案。本文评估了LLM在运营管理中复制人类行为的能力。我们利用行为运营中已发表的九项实验,从假设检验结果的复制和通过Wasserstein距离实现的分布对齐两个标准来评估LLM。结果表明,LLM能够重现大多数假设层面的效应,捕捉关键的决策偏差,但其响应分布与人类数据存在差异,即使是强大的商业模型也是如此。我们还测试了两种轻量级干预措施——思维链提示和超参数调整——它们可以减少分布错位,有时甚至能让较小或开源模型匹配或超越更大的系统。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLM)在模拟运营管理领域人类决策行为方面的有效性。现有方法,如实验室实验和实地研究,成本高昂且耗时。LLM作为一种潜在的低成本替代方案,其能否准确捕捉人类决策的细微差别,特别是分布层面的信息,是需要解决的关键问题。现有研究缺乏对LLM在运营管理领域行为模拟能力的系统性评估。
核心思路:论文的核心思路是利用已发表的行为运营实验数据,将LLM的预测结果与真实人类行为进行对比,从假设检验结果和响应分布两个层面评估LLM的模拟能力。通过这种方式,可以量化LLM在多大程度上能够捕捉到人类决策的关键特征,并识别其局限性。
技术框架:论文的技术框架主要包括以下几个步骤:1) 选取九个已发表的行为运营实验作为基准;2) 使用不同的LLM(包括商业模型和开源模型)对这些实验进行模拟,生成预测结果;3) 将LLM的预测结果与实验中人类的实际行为进行对比,评估假设检验结果的复制情况;4) 使用Wasserstein距离等指标量化LLM预测的响应分布与人类数据分布之间的差异;5) 测试思维链提示和超参数调整等干预措施对改善分布对齐的效果。
关键创新:论文的关键创新在于:1) 系统性地评估了LLM在行为运营领域模拟人类决策行为的能力,填补了该领域的空白;2) 提出了从假设检验结果和响应分布两个层面评估LLM模拟效果的方法,提供了更全面的评估视角;3) 探索了思维链提示和超参数调整等轻量级干预措施对改善LLM分布对齐的效果,为提升LLM的模拟能力提供了新的思路。
关键设计:论文的关键设计包括:1) 选取具有代表性的行为运营实验,涵盖不同的决策情境和偏差;2) 使用多种LLM,包括不同规模和架构的商业模型和开源模型,以评估不同模型的性能;3) 使用Wasserstein距离作为量化分布差异的指标,该指标能够捕捉分布形状的差异;4) 设计思维链提示,引导LLM进行更深入的思考和推理;5) 通过超参数调整,优化LLM的生成策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM能够重现大多数假设层面的效应,捕捉关键的决策偏差。然而,LLM的响应分布与人类数据存在显著差异,即使是强大的商业模型也是如此。通过思维链提示和超参数调整等干预措施,可以显著减少分布错位,有时甚至能让较小或开源模型匹配或超越更大的系统。例如,经过干预,某些开源模型在分布对齐方面超过了GPT-3.5。
🎯 应用场景
该研究成果可应用于运营管理、供应链管理、市场营销等领域,帮助企业利用LLM进行决策模拟和预测,降低实验成本,提高决策效率。例如,企业可以使用LLM模拟消费者行为,预测产品需求,优化库存管理。未来,该研究可以扩展到其他领域,如金融、医疗等,为更广泛的决策问题提供支持。
📄 摘要(原文)
LLMs are emerging tools for simulating human behavior in business, economics, and social science, offering a lower-cost complement to laboratory experiments, field studies, and surveys. This paper evaluates how well LLMs replicate human behavior in operations management. Using nine published experiments in behavioral operations, we assess two criteria: replication of hypothesis-test outcomes and distributional alignment via Wasserstein distance. LLMs reproduce most hypothesis-level effects, capturing key decision biases, but their response distributions diverge from human data, including for strong commercial models. We also test two lightweight interventions -- chain-of-thought prompting and hyperparameter tuning -- which reduce misalignment and can sometimes let smaller or open-source models match or surpass larger systems.