STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models

作者: Narun Raman, Taylor Lundy, Thiago Amin, Jesse Perla, Kevin Leyton-Brown

分类: cs.CL

发布日期: 2025-02-18 (更新: 2025-02-19)

备注: 18 pages, 11 figures

💡 一句话要点

STEER-ME：评估大型语言模型在微观经济学推理方面的能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 微观经济学 基准测试 经济推理 供需分析

📋 核心要点

现有LLM基准测试缺乏对微观经济学非战略场景（如供需分析）的全面评估。
提出auto-STEER，一种LLM辅助数据生成协议，通过调整模板自动生成微观经济学问题。
通过对27个LLM的案例研究，验证了STEER-ME基准测试在评估微观经济推理能力方面的有效性。

📝 摘要（中文）

如何判断一个大型语言模型（LLM）是否能可靠地进行经济推理？现有的大多数LLM基准测试侧重于特定应用，未能向模型呈现丰富的经济任务。Raman等人[2024]提出了一个全面评估战略决策的基准测试方法，但该方法未能解决微观经济学中普遍存在的非战略场景，例如供需分析。为了弥补这一差距，我们将微观经济学推理细分为58个不同的要素，重点关注供需逻辑，每个要素都基于多达10个不同的领域、5个视角和3种类型。基准数据的生成由一种名为auto-STEER的新型LLM辅助数据生成协议驱动，该协议通过调整手写模板来生成针对新领域和视角的问题。auto-STEER提供了一种自动生成新问题的方法，从而降低了LLM过度拟合评估基准的风险。我们希望它能成为评估和微调模型的有用工具。我们通过对27个LLM的案例研究展示了我们基准测试的有效性，这些模型包括小型开源模型和当前最先进的模型。我们研究了每个模型在整个分类中解决微观经济问题的能力，并展示了一系列提示策略和评分指标的结果。

🔬 方法详解

问题定义：论文旨在解决现有LLM基准测试在评估微观经济学推理能力方面的不足，特别是缺乏对非战略场景（如供需分析）的全面评估。现有方法主要集中在特定应用或战略决策，未能覆盖微观经济学中广泛存在的供需关系分析等基本推理能力。

核心思路：论文的核心思路是构建一个全面的微观经济学推理基准测试，该基准测试覆盖了供需逻辑的多个维度，包括不同的领域、视角和类型。为了避免LLM过度拟合基准测试，论文提出了一种自动生成新问题的LLM辅助数据生成协议auto-STEER。

技术框架：整体框架包含以下几个主要阶段：1) 微观经济学推理要素的分类，将供需逻辑细分为58个不同的要素。2) 基于分类，设计手写模板，用于生成针对特定领域和视角的问题。3) 利用auto-STEER，通过调整手写模板自动生成新的问题，从而扩展基准测试的数据集。4) 使用生成的基准测试数据评估LLM的微观经济学推理能力。

关键创新：最重要的技术创新点是auto-STEER，一种LLM辅助数据生成协议，可以自动生成新的微观经济学问题。与现有方法相比，auto-STEER能够动态地生成新的测试用例，从而降低了LLM过度拟合基准测试的风险，并提高了基准测试的泛化能力。

关键设计：auto-STEER的关键设计在于利用LLM的能力，根据预定义的手写模板和目标领域/视角，自动生成符合要求的微观经济学问题。具体实现细节未知，但推测可能涉及prompt工程、约束解码等技术，以保证生成问题的质量和多样性。

🖼️ 关键图片

📊 实验亮点

论文通过对27个LLM的案例研究，展示了STEER-ME基准测试的有效性。实验结果表明，不同LLM在微观经济学推理能力方面存在显著差异，即使是最先进的模型也未能完全解决所有问题。该研究还评估了不同prompting策略和评分指标对模型性能的影响，为后续研究提供了有价值的参考。

🎯 应用场景

该研究成果可应用于评估和改进LLM在经济学领域的应用能力，例如经济预测、政策分析、市场建模等。通过使用STEER-ME基准测试，可以更好地了解LLM在微观经济学推理方面的优势和不足，从而指导模型的微调和优化，提升其在实际经济问题中的应用价值。未来，该基准测试可以扩展到其他经济学领域，例如宏观经济学、金融学等。

📄 摘要（原文）

How should one judge whether a given large language model (LLM) can reliably perform economic reasoning? Most existing LLM benchmarks focus on specific applications and fail to present the model with a rich variety of economic tasks. A notable exception is Raman et al. [2024], who offer an approach for comprehensively benchmarking strategic decision-making; however, this approach fails to address the non-strategic settings prevalent in microeconomics, such as supply-and-demand analysis. We address this gap by taxonomizing microeconomic reasoning into $58$ distinct elements, focusing on the logic of supply and demand, each grounded in up to $10$ distinct domains, $5$ perspectives, and $3$ types. The generation of benchmark data across this combinatorial space is powered by a novel LLM-assisted data generation protocol that we dub auto-STEER, which generates a set of questions by adapting handwritten templates to target new domains and perspectives. Because it offers an automated way of generating fresh questions, auto-STEER mitigates the risk that LLMs will be trained to over-fit evaluation benchmarks; we thus hope that it will serve as a useful tool both for evaluating and fine-tuning models for years to come. We demonstrate the usefulness of our benchmark via a case study on $27$ LLMs, ranging from small open-source models to the current state of the art. We examined each model's ability to solve microeconomic problems across our whole taxonomy and present the results across a range of prompting strategies and scoring metrics.

STEER-ME: Assessing the Microeconomic Reasoning of Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理