Reasoning Like an Economist: Post-Training on Economic Problems Induces Strategic Generalization in LLMs
作者: Yufa Zhou, Shaobo Wang, Xingyu Dong, Xiangqi Jin, Yifang Chen, Yue Min, Kexin Yang, Xingzhang Ren, Dayiheng Liu, Linfeng Zhang
分类: cs.AI, cs.CL, cs.GT, cs.MA
发布日期: 2025-05-31
🔗 代码/项目: GITHUB
💡 一句话要点
提出Recon,通过经济学问题后训练提升LLM在多智能体系统中的策略泛化能力
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 多智能体系统 经济推理 策略泛化 监督式微调 强化学习 领域对齐 后训练
📋 核心要点
- 直接训练LLM用于MAS面临奖励建模复杂、智能体交互动态和泛化要求高等挑战。
- 通过在经济学问题上进行后训练,Recon旨在提升LLM在多智能体环境中的策略泛化能力。
- 实验表明,Recon在经济推理和多智能体游戏中表现出结构化推理和经济理性的显著提升。
📝 摘要(中文)
直接训练用于多智能体系统(MAS)的大型语言模型(LLM)仍然具有挑战性,这归因于复杂的奖励建模、动态的智能体交互以及严苛的泛化要求。本文探讨了后训练技术,特别是监督式微调(SFT)和具有可验证奖励的强化学习(RLVR),是否能有效地泛化到多智能体场景。我们以经济推理作为试验台,利用其在数学和博弈论方面的坚实基础,对结构化分析推理的需求,以及其与市场设计、资源分配和政策分析等实际应用的相关性。我们引入了Recon(Reasoning like an Economist),一个70亿参数的开源LLM,它在2100个高质量经济推理问题的手工整理数据集上进行了后训练。在经济推理基准和多智能体游戏上的全面评估显示,在结构化推理和经济理性方面有明显的改进。这些结果强调了领域对齐的后训练在增强推理和智能体对齐方面的潜力,揭示了SFT和RL在塑造模型行为方面的作用。
🔬 方法详解
问题定义:现有方法难以使LLM直接应用于复杂的多智能体系统,尤其是在经济学相关的场景中,因为这些场景需要高度的结构化推理和策略泛化能力。直接训练LLM面临奖励函数设计困难、智能体交互复杂以及泛化性不足等问题。
核心思路:论文的核心思路是通过领域对齐的后训练,使LLM具备经济学家的推理能力,从而提升其在多智能体系统中的策略泛化能力。经济学问题具有良好的数学基础和结构化特性,适合作为训练LLM推理能力的载体。
技术框架:论文提出了Recon模型,其训练流程主要包括两个阶段:首先,使用监督式微调(SFT)在精心策划的经济推理数据集上对LLM进行训练,使其具备初步的经济学推理能力。然后,使用具有可验证奖励的强化学习(RLVR)进一步优化模型的策略,使其更加符合经济理性。
关键创新:该论文的关键创新在于将经济学推理作为LLM后训练的领域,并提出了Recon模型。通过SFT和RLVR的结合,Recon能够有效地提升LLM在多智能体系统中的策略泛化能力。与传统的直接训练方法相比,Recon利用领域知识进行后训练,能够更有效地引导模型学习策略。
关键设计:Recon模型基于一个70亿参数的开源LLM。经济推理数据集包含2100个高质量的经济学问题。在SFT阶段,使用交叉熵损失函数进行训练。在RLVR阶段,奖励函数基于经济学原理进行设计,用于评估模型的经济理性程度。具体的参数设置和网络结构细节未在摘要中详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
Recon在经济推理基准和多智能体游戏中表现出显著的性能提升。具体而言,Recon在结构化推理和经济理性方面均优于基线模型。论文中提到在经济推理基准和多智能体游戏上的全面评估显示,在结构化推理和经济理性方面有明显的改进,但具体的性能数据和提升幅度未在摘要中给出,属于未知信息。
🎯 应用场景
该研究成果可应用于市场设计、资源分配、政策分析等领域。通过提升LLM在经济学领域的推理能力,可以辅助决策者进行更科学、合理的决策,提高资源利用效率,优化市场机制,并对政策效果进行更准确的评估。此外,该方法还可以推广到其他需要复杂推理和策略制定的多智能体系统应用中。
📄 摘要(原文)
Directly training Large Language Models (LLMs) for Multi-Agent Systems (MAS) remains challenging due to intricate reward modeling, dynamic agent interactions, and demanding generalization requirements. This paper explores whether post-training techniques, specifically Supervised Fine-Tuning (SFT) and Reinforcement Learning with Verifiable Rewards (RLVR), can effectively $\textit{generalize}$ to multi-agent scenarios. We use economic reasoning as a testbed, leveraging its strong foundations in mathematics and game theory, its demand for structured analytical reasoning, and its relevance to real-world applications such as market design, resource allocation, and policy analysis. We introduce $\textbf{Recon}$ ($\textbf{R}$easoning like an $\textbf{ECON}$omist), a 7B-parameter open-source LLM post-trained on a hand-curated dataset of 2,100 high-quality economic reasoning problems. Comprehensive evaluation on economic reasoning benchmarks and multi-agent games reveals clear improvements in structured reasoning and economic rationality. These results underscore the promise of domain-aligned post-training for enhancing reasoning and agent alignment, shedding light on the roles of SFT and RL in shaping model behavior. Code is available at https://github.com/MasterZhou1/Recon .