When simulations look right but causal effects go wrong: Large language models as behavioral simulators

作者: Zonghan Li, Feng Ji

分类: cs.CY, cs.AI, cs.ET

发布日期: 2026-04-06

💡 一句话要点

大型语言模型作为行为模拟器，描述性拟合良好但因果效应预测失准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 行为模拟 因果推断 干预效果 气候心理学

📋 核心要点

现有行为模拟方法难以准确预测干预措施的因果效应，尤其是在复杂社会心理情境下。
该研究利用大型语言模型模拟个体对干预的反应，并评估其描述性拟合和因果保真度。
实验表明，LLM在描述性拟合方面表现良好，但因果效应预测存在偏差，且误差结构因干预类型而异。

📝 摘要（中文）

行为模拟越来越多地被用于预测对干预措施的反应。大型语言模型（LLM）使研究人员能够用自然语言指定人群特征和干预背景，但LLM能在多大程度上利用这些输入来推断干预效果仍不清楚。我们使用来自62个国家的59,508名参与者的数据集评估了三个LLM在11项气候心理学干预措施中的表现，并在另外两个数据集（12个和27个国家）中复制了主要分析。LLM在态度结果（例如，气候信念和政策支持）中合理地再现了观察到的模式，并且提示改进提高了这种描述性拟合。然而，描述性拟合并没有可靠地转化为因果保真度（即，干预效果的准确估计），并且这两个准确性维度遵循不同的误差结构。这种描述性-因果性差异存在于三个数据集中，但在干预逻辑中有所不同，对于依赖于唤起内部体验的干预措施，比直接传达理由或社会线索的干预措施的误差更大。对于行为结果，LLM施加了比人类数据更强的态度-行为耦合。描述性地看起来被很好地捕获的国家和人群群体不一定是因果误差较低的那些。因此，仅依靠描述性拟合可能会对模拟结果产生不必要的信心，误导关于干预效果的结论，并掩盖对公平性至关重要的人群差异。

🔬 方法详解

问题定义：现有行为模拟方法，尤其是在气候心理学等复杂领域，难以准确预测干预措施的因果效应。现有方法可能无法充分捕捉个体差异、情境因素以及态度与行为之间的复杂关系，导致对干预效果的误判。

核心思路：该研究的核心思路是利用大型语言模型（LLM）作为行为模拟器，通过自然语言描述人群特征和干预背景，让LLM模拟个体对干预措施的反应。通过比较LLM的模拟结果与真实世界的数据，评估LLM在描述性拟合（再现观察到的模式）和因果保真度（准确估计干预效果）方面的表现。

技术框架：该研究的技术框架主要包括以下几个步骤：1) 数据收集：使用来自多个国家的大规模数据集，包含个体对气候心理学干预措施的反应数据。2) LLM提示：使用自然语言提示LLM，描述人群特征、干预背景和干预措施。3) LLM模拟：让LLM模拟个体对干预措施的反应，生成态度和行为结果。4) 结果评估：比较LLM的模拟结果与真实世界的数据，评估LLM的描述性拟合和因果保真度。

关键创新：该研究的关键创新在于：1) 将大型语言模型应用于行为模拟领域，探索其在预测干预效果方面的潜力。2) 区分了描述性拟合和因果保真度，并评估了LLM在这两个方面的表现。3) 揭示了LLM在因果效应预测方面存在的偏差，并分析了误差结构与干预类型之间的关系。

关键设计：研究中使用了三个大型语言模型，并针对不同的干预措施设计了相应的自然语言提示。评估指标包括描述性拟合度（例如，态度结果的再现程度）和因果保真度（例如，干预效果的准确估计）。研究还分析了不同国家和人群群体的误差差异，以及态度-行为耦合的强度。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在描述性拟合方面表现良好，能够较好地再现观察到的态度模式。然而，LLM在因果保真度方面存在明显偏差，尤其是在预测行为结果时，LLM倾向于施加比人类数据更强的态度-行为耦合。此外，研究发现，描述性拟合良好的国家和人群群体不一定是因果误差较低的那些。

🎯 应用场景

该研究成果可应用于社会科学、公共政策等领域，帮助研究人员和决策者更好地理解和预测干预措施的效果。通过识别LLM模拟的偏差和误差结构，可以改进LLM的行为模拟能力，提高干预措施设计的有效性和公平性。此外，该研究也为评估其他类型AI模型在行为模拟方面的可靠性提供了参考。

📄 摘要（原文）

Behavioral simulation is increasingly used to anticipate responses to interventions. Large language models (LLMs) enable researchers to specify population characteristics and intervention context in natural language, but it remains unclear to what extent LLMs can use these inputs to infer intervention effects. We evaluated three LLMs on 11 climate-psychology interventions using a dataset of 59,508 participants from 62 countries, and replicated the main analysis in two additional datasets (12 and 27 countries). LLMs reproduced observed patterns in attitudinal outcomes (e.g., climate beliefs and policy support) reasonably well, and prompting refinements improved this descriptive fit. However, descriptive fit did not reliably translate into causal fidelity (i.e., accurate estimates of intervention effects), and these two dimensions of accuracy followed different error structures. This descriptive-causal divergence held across the three datasets, but varied across intervention logics, with larger errors for interventions that depended on evoking internal experience than on directly conveying reasons or social cues. It was more pronounced for behavioral outcomes, where LLMs imposed stronger attitude-behavior coupling than in human data. Countries and population groups appearing well captured descriptively were not necessarily those with lower causal errors. Relying on descriptive fit alone may therefore create unwarranted confidence in simulation results, misleading conclusions about intervention effects and masking population disparities that matter for fairness.

When simulations look right but causal effects go wrong: Large language models as behavioral simulators

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理