Inflation Attitudes of Large Language Models
作者: Nikoleta Anesti, Edward Hill, Andreas Joseph
分类: cs.CL, econ.EM
发布日期: 2025-12-16
备注: 41 pages, 11 figures
💡 一句话要点
利用大型语言模型模拟通胀预期,揭示其对宏观经济信号的认知能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 通胀预期 宏观经济 Shapley值 调查模拟
📋 核心要点
- 现有方法难以有效评估大型语言模型对宏观经济变量(如通胀)的认知和预测能力。
- 本文提出一种准实验方法,通过模拟调查环境,评估GPT-3.5对通胀的感知和预期,并与真实数据对比。
- 实验表明,GPT在短期内能较好地跟踪通胀数据,但在消费者价格通胀建模方面存在不足,且对食品通胀敏感。
📝 摘要(中文)
本文研究了大型语言模型(LLM),特别是GPT-3.5-turbo(GPT),基于宏观经济价格信号形成通胀感知和预期的能力。我们将LLM的输出与家庭调查数据和官方统计数据进行比较,模拟英国央行通胀态度调查(IAS)的信息集和人口特征。我们的准实验设计利用了GPT在2021年9月的训练截止时间,这意味着它不了解随后的英国通胀飙升。我们发现GPT在短期内跟踪总体调查预测和官方统计数据。在分解层面,GPT复制了家庭通胀感知的关键经验规律,特别是在收入、住房保有权和社会阶层方面。一种新颖的Shapley值分解方法适用于合成调查环境,为与提示内容相关的模型输出驱动因素提供了明确的见解。我们发现GPT表现出对食品通胀信息的高度敏感性,类似于人类受访者。然而,我们也发现它缺乏一致的消费者价格通胀模型。更一般地说,我们的方法可以用于评估LLM在社会科学中的行为,比较不同的模型,或协助调查设计。
🔬 方法详解
问题定义:现有方法难以评估LLM对宏观经济变量的理解和预测能力,特别是缺乏直接比较LLM输出与真实世界数据的有效途径。现有调查方法成本高昂,且难以控制变量。
核心思路:本文的核心思路是利用LLM作为“合成受访者”,通过模拟真实世界的调查环境,向LLM输入宏观经济信息,并分析其输出的通胀预期。通过与真实调查数据和官方统计数据对比,评估LLM的认知能力和偏差。
技术框架:整体框架包括以下几个阶段:1) 构建模拟调查环境,包括设计提示词,模拟人口统计特征;2) 向GPT-3.5输入提示词,获取其通胀预期输出;3) 将GPT的输出与英国央行通胀态度调查(IAS)数据和官方统计数据进行比较;4) 使用Shapley值分解方法分析提示词内容对模型输出的影响。
关键创新:主要创新在于将LLM应用于宏观经济研究,并提出了一种准实验方法来评估其认知能力。通过模拟调查环境,可以直接比较LLM的输出与真实世界数据,从而揭示LLM的偏差和局限性。Shapley值分解方法为理解提示词内容对模型输出的影响提供了新的视角。
关键设计:关键设计包括:1) 精心设计的提示词,模拟真实调查问卷;2) 使用GPT-3.5-turbo模型,并利用其在2021年9月的训练截止时间,使其对后续的英国通胀飙升一无所知;3) 使用Shapley值分解方法,量化不同提示词内容对模型输出的影响。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-3.5在短期内能够较好地跟踪总体调查预测和官方统计数据。在分解层面,GPT复制了家庭通胀感知的关键经验规律,特别是在收入、住房保有权和社会阶层方面。Shapley值分解结果显示,GPT对食品通胀信息表现出高度敏感性,与人类受访者相似。但同时也发现,GPT缺乏一致的消费者价格通胀模型。
🎯 应用场景
该研究方法可用于评估LLM在社会科学领域的应用潜力,例如模拟消费者行为、预测市场趋势等。此外,该方法还可以用于比较不同LLM的性能,辅助调查问卷设计,并为政策制定者提供参考信息。该研究有助于理解AI模型在经济预测和决策中的作用,并为未来开发更可靠的AI系统提供指导。
📄 摘要(原文)
This paper investigates the ability of Large Language Models (LLMs), specifically GPT-3.5-turbo (GPT), to form inflation perceptions and expectations based on macroeconomic price signals. We compare the LLM's output to household survey data and official statistics, mimicking the information set and demographic characteristics of the Bank of England's Inflation Attitudes Survey (IAS). Our quasi-experimental design exploits the timing of GPT's training cut-off in September 2021 which means it has no knowledge of the subsequent UK inflation surge. We find that GPT tracks aggregate survey projections and official statistics at short horizons. At a disaggregated level, GPT replicates key empirical regularities of households' inflation perceptions, particularly for income, housing tenure, and social class. A novel Shapley value decomposition of LLM outputs suited for the synthetic survey setting provides well-defined insights into the drivers of model outputs linked to prompt content. We find that GPT demonstrates a heightened sensitivity to food inflation information similar to that of human respondents. However, we also find that it lacks a consistent model of consumer price inflation. More generally, our approach could be used to evaluate the behaviour of LLMs for use in the social sciences, to compare different models, or to assist in survey design.