Left Leaning Models: How AI Evaluates Economic Policy?
作者: Maxim Chupilkin
分类: cs.CY, cs.AI, econ.GN
发布日期: 2025-07-21 (更新: 2025-12-09)
备注: 16 pages, 2 figures, 3 tables
💡 一句话要点
利用大型语言模型评估经济政策偏好:揭示AI的“左倾”倾向
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 经济政策评估 人工智能偏好 联合实验 宏观经济 社会公平 AI决策 数值敏感性
📋 核心要点
- 现有方法缺乏对AI经济政策偏好的系统评估,导致其决策过程如同黑盒,难以理解。
- 该研究通过联合实验,利用大型语言模型在多因素约束下评估经济政策,揭示其潜在偏好。
- 实验结果表明,LLM普遍偏好高增长、低失业率和低不平等,而非传统宏观经济目标。
📝 摘要(中文)
随着人工智能在经济政策制定者、学者和市场参与者中的应用呈指数级增长,理解人工智能对经济政策的偏好变得至关重要。本文对OpenAI、Anthropic和Google等领先的大型语言模型(LLM)进行了一项联合实验,要求它们在多因素约束下评估经济政策。结果在不同模型中表现出显著的一致性:大多数LLM表现出对高增长、低失业率和低不平等的高度偏好,而非传统的宏观经济关注点,如低通货膨胀和低公共债务。特定场景的实验表明,LLM对上下文敏感,但在货币政策环境中仍然表现出对低失业率和低不平等的高度偏好。数值敏感性测试揭示了对定量变化的直观反应,但也发现了非线性模式,如损失厌恶。
🔬 方法详解
问题定义:现有经济政策评估方法缺乏对人工智能偏好的系统性分析。随着AI在经济决策中作用日益重要,理解AI的偏好成为关键。现有方法无法有效揭示AI在复杂经济场景下的决策倾向,导致其应用存在不确定性。
核心思路:该研究的核心思路是利用大型语言模型(LLM)作为“代理”,通过设计联合实验,模拟AI在不同经济政策场景下的决策过程。通过分析LLM的决策偏好,推断AI在实际经济政策制定中的潜在倾向。这种方法将复杂的经济政策评估问题转化为LLM的偏好选择问题。
技术框架:该研究采用联合实验设计,主要流程如下:1)构建经济政策场景:定义多个影响经济状况的因素,如增长率、失业率、通货膨胀率、不平等程度和公共债务。2)设计实验问题:向LLM展示不同的经济政策组合,要求其评估并排序。3)模型选择:选择OpenAI、Anthropic和Google等公司的领先LLM。4)结果分析:分析LLM的评估结果,识别其对不同经济因素的偏好。5)敏感性测试:通过改变数值参数,测试LLM对定量变化的反应。
关键创新:该研究的关键创新在于将大型语言模型应用于经济政策评估领域,并设计了联合实验方法来系统地揭示AI的偏好。与传统的经济模型不同,该方法能够捕捉AI在复杂、多因素约束下的决策倾向,并发现其对社会公平等非传统经济指标的关注。
关键设计:实验设计中,关键参数包括:1)经济因素的选择:选择具有代表性的宏观经济指标,如增长率、失业率、通货膨胀率等。2)政策组合的设计:构建合理的政策组合,确保覆盖不同的经济状况。3)LLM的选择:选择具有代表性的、性能领先的LLM。4)评估指标:设计合理的评估指标,量化LLM对不同政策组合的偏好。5)敏感性测试:通过改变数值参数,测试LLM对定量变化的反应,例如损失厌恶。
📊 实验亮点
实验结果显示,不同LLM在经济政策偏好上表现出高度一致性,普遍偏好高增长、低失业率和低不平等。即使在货币政策场景中,LLM仍然表现出对低失业率和低不平等的高度关注。数值敏感性测试揭示了LLM对定量变化的直观反应,并发现了非线性模式,如损失厌恶。
🎯 应用场景
该研究成果可应用于辅助经济政策制定,帮助决策者理解AI在经济决策中的潜在影响,并预测AI驱动的自动化可能带来的社会经济后果。此外,该研究方法可推广到其他领域,用于评估AI在不同场景下的偏好和决策模式,从而促进AI的负责任发展。
📄 摘要(原文)
Would artificial intelligence (AI) cut interest rates or adopt conservative monetary policy? Would it deregulate or opt for a more controlled economy? As AI use by economic policymakers, academics, and market participants grows exponentially, it is becoming critical to understand AI preferences over economic policy. However, these preferences are not yet systematically evaluated and remain a black box. This paper makes a conjoint experiment on leading large language models (LLMs) from OpenAI, Anthropic, and Google, asking them to evaluate economic policy under multi-factor constraints. The results are remarkably consistent across models: most LLMs exhibit a strong preference for high growth, low unemployment, and low inequality over traditional macroeconomic concerns such as low inflation and low public debt. Scenario-specific experiments show that LLMs are sensitive to context but still display strong preferences for low unemployment and low inequality even in monetary-policy settings. Numerical sensitivity tests reveal intuitive responses to quantitative changes but also uncover non-linear patterns such as loss aversion.