STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models

📄 arXiv: 2502.13119v2 📥 PDF

作者: Narun Raman, Taylor Lundy, Thiago Amin, Jesse Perla, Kevin Leyton-Brown

分类: cs.CL

发布日期: 2025-02-18 (更新: 2025-02-19)

备注: 18 pages, 11 figures


💡 一句话要点

STEER-ME:评估大型语言模型在微观经济学推理方面的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 微观经济学 基准测试 经济推理 供需分析

📋 核心要点

  1. 现有LLM基准测试缺乏对微观经济学非战略场景(如供需分析)的全面评估。
  2. 提出auto-STEER,一种LLM辅助数据生成协议,通过调整模板自动生成微观经济学问题。
  3. 通过对27个LLM的案例研究,验证了STEER-ME基准测试在评估微观经济推理能力方面的有效性。

📝 摘要(中文)

如何判断一个大型语言模型(LLM)是否能可靠地进行经济推理?现有的大多数LLM基准测试侧重于特定应用,未能向模型呈现丰富的经济任务。Raman等人[2024]提出了一个全面评估战略决策的基准测试方法,但该方法未能解决微观经济学中普遍存在的非战略场景,例如供需分析。为了弥补这一差距,我们将微观经济学推理细分为58个不同的要素,重点关注供需逻辑,每个要素都基于多达10个不同的领域、5个视角和3种类型。基准数据的生成由一种名为auto-STEER的新型LLM辅助数据生成协议驱动,该协议通过调整手写模板来生成针对新领域和视角的问题。auto-STEER提供了一种自动生成新问题的方法,从而降低了LLM过度拟合评估基准的风险。我们希望它能成为评估和微调模型的有用工具。我们通过对27个LLM的案例研究展示了我们基准测试的有效性,这些模型包括小型开源模型和当前最先进的模型。我们研究了每个模型在整个分类中解决微观经济问题的能力,并展示了一系列提示策略和评分指标的结果。

🔬 方法详解

问题定义:论文旨在解决现有LLM基准测试在评估微观经济学推理能力方面的不足,特别是缺乏对非战略场景(如供需分析)的全面评估。现有方法主要集中在特定应用或战略决策,未能覆盖微观经济学中广泛存在的供需关系分析等基本推理能力。

核心思路:论文的核心思路是构建一个全面的微观经济学推理基准测试,该基准测试覆盖了供需逻辑的多个维度,包括不同的领域、视角和类型。为了避免LLM过度拟合基准测试,论文提出了一种自动生成新问题的LLM辅助数据生成协议auto-STEER。

技术框架:整体框架包含以下几个主要阶段:1) 微观经济学推理要素的分类,将供需逻辑细分为58个不同的要素。2) 基于分类,设计手写模板,用于生成针对特定领域和视角的问题。3) 利用auto-STEER,通过调整手写模板自动生成新的问题,从而扩展基准测试的数据集。4) 使用生成的基准测试数据评估LLM的微观经济学推理能力。

关键创新:最重要的技术创新点是auto-STEER,一种LLM辅助数据生成协议,可以自动生成新的微观经济学问题。与现有方法相比,auto-STEER能够动态地生成新的测试用例,从而降低了LLM过度拟合基准测试的风险,并提高了基准测试的泛化能力。

关键设计:auto-STEER的关键设计在于利用LLM的能力,根据预定义的手写模板和目标领域/视角,自动生成符合要求的微观经济学问题。具体实现细节未知,但推测可能涉及prompt工程、约束解码等技术,以保证生成问题的质量和多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过对27个LLM的案例研究,展示了STEER-ME基准测试的有效性。实验结果表明,不同LLM在微观经济学推理能力方面存在显著差异,即使是最先进的模型也未能完全解决所有问题。该研究还评估了不同prompting策略和评分指标对模型性能的影响,为后续研究提供了有价值的参考。

🎯 应用场景

该研究成果可应用于评估和改进LLM在经济学领域的应用能力,例如经济预测、政策分析、市场建模等。通过使用STEER-ME基准测试,可以更好地了解LLM在微观经济学推理方面的优势和不足,从而指导模型的微调和优化,提升其在实际经济问题中的应用价值。未来,该基准测试可以扩展到其他经济学领域,例如宏观经济学、金融学等。

📄 摘要(原文)

How should one judge whether a given large language model (LLM) can reliably perform economic reasoning? Most existing LLM benchmarks focus on specific applications and fail to present the model with a rich variety of economic tasks. A notable exception is Raman et al. [2024], who offer an approach for comprehensively benchmarking strategic decision-making; however, this approach fails to address the non-strategic settings prevalent in microeconomics, such as supply-and-demand analysis. We address this gap by taxonomizing microeconomic reasoning into $58$ distinct elements, focusing on the logic of supply and demand, each grounded in up to $10$ distinct domains, $5$ perspectives, and $3$ types. The generation of benchmark data across this combinatorial space is powered by a novel LLM-assisted data generation protocol that we dub auto-STEER, which generates a set of questions by adapting handwritten templates to target new domains and perspectives. Because it offers an automated way of generating fresh questions, auto-STEER mitigates the risk that LLMs will be trained to over-fit evaluation benchmarks; we thus hope that it will serve as a useful tool both for evaluating and fine-tuning models for years to come. We demonstrate the usefulness of our benchmark via a case study on $27$ LLMs, ranging from small open-source models to the current state of the art. We examined each model's ability to solve microeconomic problems across our whole taxonomy and present the results across a range of prompting strategies and scoring metrics.