The Challenge of Using LLMs to Simulate Human Behavior: A Causal Inference Perspective

作者: George Gui, Olivier Toubia

分类: cs.AI, cs.IR, econ.EM, stat.AP

发布日期: 2023-12-24 (更新: 2025-11-23)

DOI: 10.2139/ssrn.4650172

💡 一句话要点

揭示LLM模拟人类行为的因果推断挑战，提出明确提示策略以提升模拟效果

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 人类行为模拟 因果推断 提示工程 实验设计

📋 核心要点

现有方法在利用LLM模拟人类行为时，由于LLM对实验设计的盲视，导致违反无混淆性假设，产生不合理结果。
论文提出明确提示策略，即在LLM模拟中揭示实验设计，以消除混淆，从而提升模拟的生态有效性。
实验结果表明，该策略能够持续提高各种LLM的性能，并且可以作为微调的补充，增强模型对无关数据的鲁棒性。

📝 摘要（中文）

大型语言模型(LLM)在模拟人类行为方面展现出巨大的潜力。本文指出，在利用LLM模拟实验时存在一个根本性的挑战：当LLM模拟的受试者对实验设计不知情时（如同人类受试者的标准做法），处理方式的变化会系统性地影响那些本应保持不变的未指定变量，从而违反了无混淆性假设。以需求估计为背景，并以包含40种不同产品的实际实验作为基准，我们表明这可能导致不合理的结果。虽然原则上可以通过控制协变量来解决混淆问题，但这可能会损害LLM模拟的生态有效性：受控协变量在模拟决策过程中变得人为地突出。我们从形式上证明了混淆源于模糊的提示策略。因此，可以通过开发明确的提示策略来解决这个问题，即通过揭示LLM模拟中的实验设计。我们的实证结果表明，这种策略能够持续提高所有测试模型的性能，包括开箱即用的推理模型和非推理模型。我们还表明，这是一种可以补充微调的技术：虽然微调可以提高模拟性能，但明确的提示策略使预测对微调过程中包含无关数据具有鲁棒性。

🔬 方法详解

问题定义：论文旨在解决使用大型语言模型（LLM）模拟人类行为时，由于LLM对实验设计不知情而导致的因果混淆问题。现有方法在模拟实验时，通常让LLM像人类受试者一样对实验设计保持盲视，这导致处理方式的变化会系统性地影响那些本应保持不变的未指定变量，从而违反了因果推断中的无混淆性假设。这种混淆会导致模拟结果不准确，甚至产生不合理的结果。

核心思路：论文的核心解决思路是开发明确的提示策略，通过“揭示”（unblinding）实验设计来消除混淆。具体来说，就是让LLM在模拟过程中了解实验设计，从而避免因对实验环境的误解而产生偏差。这种方法旨在使LLM的决策过程更加透明和可控，从而提高模拟的准确性和可靠性。

技术框架：论文的技术框架主要包括以下几个步骤：1) 定义问题：明确LLM模拟人类行为时存在的因果混淆问题。2) 提出解决方案：开发明确的提示策略，即在LLM模拟中揭示实验设计。3) 实验验证：使用实际实验数据作为基准，评估明确提示策略的效果。4) 分析结果：分析实验结果，验证明确提示策略的有效性，并探讨其与微调等其他技术的互补性。

关键创新：论文最重要的技术创新点在于提出了“明确提示策略”的概念，并将其应用于LLM模拟人类行为的场景中。与现有方法相比，该策略通过让LLM了解实验设计，从而避免了因果混淆，提高了模拟的准确性和可靠性。此外，论文还证明了该策略可以作为微调的补充，增强模型对无关数据的鲁棒性。

关键设计：论文的关键设计在于如何构建明确的提示。具体的提示设计需要根据具体的实验场景进行调整，但其核心思想是让LLM清楚地了解实验的目的、处理方式以及其他相关信息。例如，在需求估计的场景中，可以向LLM提供产品的详细描述、价格信息以及实验设计的相关说明。此外，论文还探讨了如何控制协变量，以进一步消除混淆，但同时也强调了需要注意保持模拟的生态有效性。

📊 实验亮点

论文使用包含40种不同产品的实际实验作为基准，验证了明确提示策略的有效性。实验结果表明，该策略能够持续提高所有测试模型的性能，包括开箱即用的推理模型和非推理模型。此外，论文还证明了该策略可以作为微调的补充，增强模型对无关数据的鲁棒性，使得微调后的模型在包含无关数据的情况下，预测结果更加稳定。

🎯 应用场景

该研究成果可广泛应用于市场营销、经济学、社会科学等领域，用于模拟消费者行为、预测市场趋势、评估政策效果等。通过提高LLM模拟的准确性和可靠性，可以为决策者提供更可靠的依据，从而做出更明智的决策。未来，该研究还可以扩展到其他类型的模拟场景，例如模拟交通流量、预测疾病传播等。

📄 摘要（原文）

Large Language Models (LLMs) have shown impressive potential to simulate human behavior. We identify a fundamental challenge in using them to simulate experiments: when LLM-simulated subjects are blind to the experimental design (as is standard practice with human subjects), variations in treatment systematically affect unspecified variables that should remain constant, violating the unconfoundedness assumption. Using demand estimation as a context and an actual experiment with 40 different products as a benchmark, we show this can lead to implausible results. While confounding may in principle be addressed by controlling for covariates, this can compromise ecological validity in the context of LLM simulations: controlled covariates become artificially salient in the simulated decision process. We show formally that confoundness stems from ambiguous prompting strategies. Therefore, it can be addressed by developing unambiguous prompting strategies through unblinding, i.e., revealing the experiment design in LLM simulations. Our empirical results show that this strategy consistently enhances model performance across all tested models, including both out-of-box reasoning and non-reasoning models. We also show that it is a technique that complements fine-tuning: while fine-tuning can improve simulation performance, an unambiguous prompting strategy makes the predictions robust to the inclusion of irrelevant data in the fine-tuning process.

The Challenge of Using LLMs to Simulate Human Behavior: A Causal Inference Perspective

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册