Ideological Bias in LLMs' Economic Causal Reasoning

📄 arXiv: 2604.21334v1 📥 PDF

作者: Donggyu Lee, Hyeok Yun, Jungwon Kim, Junsik Min, Sungwon Park, Sangyoon Park, Jihee Kim

分类: cs.AI, cs.CE, cs.CL, cs.LG, econ.GN

发布日期: 2026-04-23


💡 一句话要点

揭示LLM在经济因果推理中存在的意识形态偏见,尤其是在干预导向与市场导向观点对立时。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 经济因果推理 意识形态偏见 EconCausal基准 政策分析

📋 核心要点

  1. 现有LLM在经济因果推理中可能存在意识形态偏见,这会影响其在政策分析等领域的可靠性。
  2. 论文扩展EconCausal基准,构建包含意识形态争议的因果推理数据集,用于评估LLM的偏见。
  3. 实验表明,LLM在意识形态争议问题上准确率较低,且系统性地偏向干预导向的观点。

📝 摘要(中文)

大型语言模型(LLM)在经济因果效应推理中是否表现出系统性的意识形态偏见?随着LLM越来越多地应用于政策分析和经济报告,而方向正确的因果判断至关重要,这个问题具有直接的实际意义。本文通过扩展EconCausal基准,纳入意识形态争议案例(即干预导向(亲政府)和市场导向(亲市场)观点预测因果关系方向不同的实例),从而进行系统评估。从顶级经济和金融期刊中提取的10490个因果三元组(具有经验验证效应方向的处理-结果对)中,我们识别出1056个意识形态争议实例,并评估了20个最先进的LLM预测经验支持的因果方向的能力。研究发现,意识形态争议项目始终比非争议项目更难,并且在20个模型中的18个模型中,当经验验证的因果符号与干预导向的预期一致时,准确率系统性地高于与市场导向的预期一致时。此外,当模型出错时,其不正确的预测不成比例地倾向于干预导向,并且这种方向性偏差不会被一次性上下文提示消除。这些结果表明,LLM不仅在意识形态争议的经济问题上不太准确,而且在一个意识形态方向上系统性地不如另一个方向可靠,这突显了在高风险经济和政策环境中进行方向感知评估的必要性。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在经济因果推理中是否存在意识形态偏见。现有方法缺乏对LLM在意识形态争议问题上的系统评估,这可能导致LLM在政策分析等高风险场景中做出有偏见的决策。

核心思路:论文的核心思路是通过构建一个包含意识形态争议案例的经济因果推理数据集,来评估LLM在预测因果关系方向时的准确性和偏见。这种方法能够量化LLM在不同意识形态立场上的表现差异,从而揭示其潜在的偏见。

技术框架:论文的技术框架主要包括以下几个步骤:1) 从顶级经济和金融期刊中提取因果三元组(处理-结果对);2) 识别出其中存在意识形态争议的实例,即干预导向和市场导向观点对因果关系方向有不同预测的实例;3) 使用这些实例评估20个最先进的LLM预测因果方向的能力;4) 分析LLM的预测结果,量化其在不同意识形态立场上的准确率和偏见。

关键创新:论文最重要的技术创新点在于构建了一个包含意识形态争议案例的经济因果推理数据集。与现有的经济因果推理基准相比,该数据集能够更有效地评估LLM在意识形态方面的偏见。此外,论文还提出了一种量化LLM意识形态偏见的方法,通过比较LLM在不同意识形态立场上的准确率,可以清晰地揭示其偏见程度。

关键设计:论文的关键设计包括:1) 意识形态争议案例的选取标准,即干预导向和市场导向观点对因果关系方向有明确不同的预测;2) LLM的评估指标,包括准确率和方向性偏差;3) 对LLM进行一次性上下文提示,以观察其是否能够消除意识形态偏见。

🖼️ 关键图片

fig_0
fig_1

📊 实验亮点

实验结果表明,LLM在意识形态争议问题上的准确率显著低于非争议问题,并且系统性地偏向干预导向的观点。在20个模型中的18个模型中,当经验验证的因果符号与干预导向的预期一致时,准确率系统性地高于与市场导向的预期一致时。即使采用一次性上下文提示,也无法消除这种方向性偏差。

🎯 应用场景

该研究成果可应用于评估和改进LLM在经济政策分析、金融风险评估等领域的应用。通过识别和减轻LLM的意识形态偏见,可以提高其决策的公正性和可靠性,避免因偏见导致的不良后果。未来的研究可以进一步探索如何利用该方法来评估其他类型模型的偏见,并开发更有效的去偏见技术。

📄 摘要(原文)

Do large language models (LLMs) exhibit systematic ideological bias when reasoning about economic causal effects? As LLMs are increasingly used in policy analysis and economic reporting, where directionally correct causal judgments are essential, this question has direct practical stakes. We present a systematic evaluation by extending the EconCausal benchmark with ideology-contested cases - instances where intervention-oriented (pro-government) and market-oriented (pro-market) perspectives predict divergent causal signs. From 10,490 causal triplets (treatment-outcome pairs with empirically verified effect directions) derived from top-tier economics and finance journals, we identify 1,056 ideology-contested instances and evaluate 20 state-of-the-art LLMs on their ability to predict empirically supported causal directions. We find that ideology-contested items are consistently harder than non-contested ones, and that across 18 of 20 models, accuracy is systematically higher when the empirically verified causal sign aligns with intervention-oriented expectations than with market-oriented ones. Moreover, when models err, their incorrect predictions disproportionately lean intervention-oriented, and this directional skew is not eliminated by one-shot in-context prompting. These results highlight that LLMs are not only less accurate on ideologically contested economic questions, but systematically less reliable in one ideological direction than the other, underscoring the need for direction-aware evaluation in high-stakes economic and policy settings.