Heterogeneous RBCs via deep multi-agent reinforcement learning

作者: Federico Gabriele, Aldo Glielmo, Marco Taboga

分类: cs.MA, cs.LG, econ.TH

发布日期: 2025-10-14

备注: 13 pages, 9 figures

💡 一句话要点

提出MARL-BC框架，结合深度多智能体强化学习与RBC模型，模拟异质性宏观经济。

🎯 匹配领域: 支柱二：RL算法与架构 (RL & Architecture)

关键词: 多智能体强化学习 宏观经济模型 异质性智能体 实际商业周期 深度学习

📋 核心要点

现有宏观经济模型在处理智能体异质性时面临挑战，GE模型计算复杂，ABM模型依赖于人为设定的行为规则。
MARL-BC框架利用深度多智能体强化学习，使智能体能够自主学习最优策略，从而模拟复杂的异质性交互。
实验表明，MARL-BC能够复现RBC和KS模型的结果，并有效模拟传统GE方法难以处理的智能体异质性。

📝 摘要（中文）

本文提出了一种名为MARL-BC的框架，该框架将深度多智能体强化学习（MARL）与实际商业周期（RBC）模型相结合。现有的具有智能体异质性的宏观经济模型主要分为两类：异质智能体一般均衡（GE）模型，例如基于异质智能体新凯恩斯（HANK）或Krusell-Smith（KS）方法的模型，依赖于GE和“理性预期”，这些假设在一定程度上是不现实的，使得模型在计算上非常繁琐，从而限制了可以建模的异质性数量。相比之下，基于智能体的模型（ABM）可以灵活地包含大量任意异质的智能体，但通常需要指定明确的行为规则，这可能导致漫长的试错模型开发过程。MARL-BC框架能够：（1）在使用单个智能体时恢复教科书式的RBC结果；（2）在使用大量相同智能体时恢复平均场KS模型的结果；（3）有效地模拟智能体之间的丰富异质性，这是传统GE方法难以做到的。如果与各种异质交互智能体一起使用，我们的框架可以被认为是一个ABM，并且可以在极限情况下重现GE结果。因此，它是朝着综合这些经常对立的建模范例迈出的一步。

🔬 方法详解

问题定义：现有宏观经济模型在处理异质性智能体时存在局限性。传统GE模型依赖于理性预期和一般均衡假设，计算复杂度高，难以模拟大规模异质性。ABM模型虽然可以灵活处理异质性，但需要人为设定智能体的行为规则，开发过程耗时且主观。因此，如何构建一个既能有效模拟异质性，又能避免人为规则设定的宏观经济模型是一个挑战。

核心思路：本文的核心思路是利用深度多智能体强化学习（MARL）来训练智能体，使其能够自主学习最优策略，从而模拟复杂的异质性交互。通过将RBC模型与MARL相结合，MARL-BC框架允许智能体在与环境和其他智能体的交互中学习，而无需人为设定行为规则。这种方法既能处理大规模异质性，又能避免传统GE模型的计算复杂性。

技术框架：MARL-BC框架主要包含以下几个模块：1）环境模块：模拟宏观经济环境，包括生产函数、资本积累、消费等。2）智能体模块：每个智能体代表一个经济个体，具有不同的初始禀赋和偏好。3）强化学习模块：使用深度强化学习算法（如Actor-Critic）训练智能体，使其学习最优的消费和投资策略。4）交互模块：智能体之间通过市场进行交互，影响彼此的决策和环境状态。整个流程是智能体在环境中与其它智能体交互，根据环境反馈调整策略，最终达到均衡。

关键创新：MARL-BC框架的关键创新在于将深度多智能体强化学习应用于宏观经济建模。与传统的GE和ABM模型相比，MARL-BC无需人为设定智能体的行为规则，而是通过强化学习让智能体自主学习。此外，MARL-BC能够有效地模拟大规模异质性，这是传统GE模型难以做到的。

关键设计：在MARL-BC框架中，每个智能体使用独立的Actor-Critic网络进行训练。Actor网络用于输出智能体的行为策略（如消费和投资比例），Critic网络用于评估当前状态和行为的价值。损失函数包括Actor网络的策略梯度损失和Critic网络的时序差分误差。关键参数包括学习率、折扣因子、探索率等。网络结构的选择也会影响模型的性能，例如可以使用循环神经网络（RNN）来处理时间序列数据。

🖼️ 关键图片

📊 实验亮点

MARL-BC框架在实验中表现出良好的性能。当使用单个智能体时，MARL-BC能够复现教科书式的RBC结果。当使用大量相同智能体时，MARL-BC能够复现平均场KS模型的结果。更重要的是，MARL-BC能够有效地模拟智能体之间的丰富异质性，这是传统GE方法难以做到的。这些结果表明，MARL-BC框架具有很强的通用性和灵活性。

🎯 应用场景

MARL-BC框架可应用于宏观经济政策分析、金融市场建模、社会网络分析等领域。通过模拟不同政策对异质性智能体的影响，可以为政策制定者提供决策支持。此外，该框架还可以用于研究金融市场的稳定性和风险传播，以及社会网络中的信息传播和行为演化。未来，该框架有望成为宏观经济建模的重要工具。

📄 摘要（原文）

Current macroeconomic models with agent heterogeneity can be broadly divided into two main groups. Heterogeneous-agent general equilibrium (GE) models, such as those based on Heterogeneous Agents New Keynesian (HANK) or Krusell-Smith (KS) approaches, rely on GE and 'rational expectations', somewhat unrealistic assumptions that make the models very computationally cumbersome, which in turn limits the amount of heterogeneity that can be modelled. In contrast, agent-based models (ABMs) can flexibly encompass a large number of arbitrarily heterogeneous agents, but typically require the specification of explicit behavioural rules, which can lead to a lengthy trial-and-error model-development process. To address these limitations, we introduce MARL-BC, a framework that integrates deep multi-agent reinforcement learning (MARL) with Real Business Cycle (RBC) models. We demonstrate that MARL-BC can: (1) recover textbook RBC results when using a single agent; (2) recover the results of the mean-field KS model using a large number of identical agents; and (3) effectively simulate rich heterogeneity among agents, a hard task for traditional GE approaches. Our framework can be thought of as an ABM if used with a variety of heterogeneous interacting agents, and can reproduce GE results in limit cases. As such, it is a step towards a synthesis of these often opposed modelling paradigms.

Heterogeneous RBCs via deep multi-agent reinforcement learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理