Assessing Long-Term Electricity Market Design for Ambitious Decarbonization Targets using Multi-Agent Reinforcement Learning
作者: Javier Gonzalez-Ruiz, Carlos Rodriguez-Pardo, Iacopo Savelli, Alice Di Bella, Massimo Tavoni
分类: cs.LG, cs.AI, cs.NE, econ.GN
发布日期: 2025-12-19
备注: Accepted to Energy and AI. Code available in https://github.com/jjgonzalez2491/MARLEY_V1
💡 一句话要点
提出基于多智能体强化学习的电力市场长期设计评估框架,助力实现深度脱碳目标。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 多智能体强化学习 电力市场设计 能源系统脱碳 近端策略优化 政策评估
📋 核心要点
- 现有电力市场设计工具难以有效支持长期脱碳目标的实现,需要更先进的评估方法。
- 论文提出基于多智能体强化学习的模型,模拟发电公司在不同市场设计和政策下的投资决策。
- 实验结果表明,市场设计对电力部门脱碳至关重要,并能有效避免价格波动。
📝 摘要(中文)
电力系统是将当今社会转型为无碳经济的关键。长期电力市场机制,包括拍卖、支持计划和其他政策工具,对于塑造电力生产结构至关重要。为了支持决策者和其他利益相关者设计、测试和评估长期市场,本研究提出了一个多智能体强化学习模型,能够捕捉脱碳能源系统的关键特征。利润最大化的发电公司在批发电力市场做出投资决策,响应系统需求、竞争动态和政策信号。该模型采用独立的近端策略优化算法,因其适用于分散和竞争环境而被选中。尽管如此,考虑到多智能体环境中独立学习的固有挑战,广泛的超参数搜索确保分散训练产生与竞争行为一致的市场结果。该模型应用于意大利电力系统的简化版本,并在不同的竞争水平、市场设计和政策情景下进行了测试。结果突出了市场设计在电力部门脱碳和避免价格波动方面的关键作用。所提出的框架允许评估多种政策和市场机制同时相互作用的长期电力市场,市场参与者响应并适应脱碳路径。
🔬 方法详解
问题定义:现有电力市场设计评估工具难以充分考虑市场参与者的动态行为和多种政策机制的相互作用,从而难以有效支持长期脱碳目标的实现。现有方法在模拟市场参与者的复杂决策过程和适应性行为方面存在不足,无法准确预测不同市场设计和政策情景下的市场结果。
核心思路:论文的核心思路是利用多智能体强化学习(MARL)模拟电力市场中多个发电公司的投资决策行为。每个发电公司被建模为一个独立的智能体,通过与环境(电力市场)交互学习,最大化自身利润。通过模拟多个智能体之间的竞争和合作,可以更真实地反映电力市场的动态特性,并评估不同市场设计和政策对市场结果的影响。
技术框架:该模型包含以下主要模块:1) 电力市场环境:模拟电力市场的供需关系、价格形成机制和政策约束。2) 发电公司智能体:每个智能体代表一个发电公司,根据市场信息和自身目标做出投资决策。3) 强化学习算法:采用独立的近端策略优化(Independent Proximal Policy Optimization, IPPO)算法训练每个智能体。4) 评估模块:评估不同市场设计和政策情景下的市场结果,如发电结构、价格波动和碳排放量。
关键创新:该论文的关键创新在于将多智能体强化学习应用于电力市场长期设计评估。与传统的电力市场模型相比,该模型能够更真实地模拟市场参与者的动态行为和多种政策机制的相互作用。此外,该模型采用独立的近端策略优化算法,适用于分散和竞争环境,并能够有效地处理多智能体环境中的非平稳性问题。
关键设计:模型采用独立的近端策略优化(IPPO)算法训练每个智能体。为了确保分散训练产生与竞争行为一致的市场结果,进行了广泛的超参数搜索。状态空间包括市场价格、发电容量、政策信号等信息。动作空间包括投资决策,如新建发电厂类型和容量。奖励函数基于发电公司的利润。模型在意大利电力系统的简化版本上进行了测试,并评估了不同竞争水平、市场设计和政策情景下的市场结果。
🖼️ 关键图片
📊 实验亮点
该模型应用于意大利电力系统的简化版本,并在不同的竞争水平、市场设计和政策情景下进行了测试。结果表明,市场设计在电力部门脱碳和避免价格波动方面起着关键作用。例如,合理的碳定价机制可以有效促进可再生能源的发展,并降低碳排放量。此外,该模型还能够识别潜在的价格操纵行为,并为监管机构提供预警。
🎯 应用场景
该研究成果可应用于电力市场设计、政策评估和投资决策等领域。决策者可以利用该模型评估不同市场设计和政策对电力系统脱碳的影响,并制定更有效的政策。发电公司可以利用该模型预测市场趋势,优化投资策略。此外,该模型还可以应用于其他能源市场和复杂系统。
📄 摘要(原文)
Electricity systems are key to transforming today's society into a carbon-free economy. Long-term electricity market mechanisms, including auctions, support schemes, and other policy instruments, are critical in shaping the electricity generation mix. In light of the need for more advanced tools to support policymakers and other stakeholders in designing, testing, and evaluating long-term markets, this work presents a multi-agent reinforcement learning model capable of capturing the key features of decarbonizing energy systems. Profit-maximizing generation companies make investment decisions in the wholesale electricity market, responding to system needs, competitive dynamics, and policy signals. The model employs independent proximal policy optimization, which was selected for suitability to the decentralized and competitive environment. Nevertheless, given the inherent challenges of independent learning in multi-agent settings, an extensive hyperparameter search ensures that decentralized training yields market outcomes consistent with competitive behavior. The model is applied to a stylized version of the Italian electricity system and tested under varying levels of competition, market designs, and policy scenarios. Results highlight the critical role of market design for decarbonizing the electricity sector and avoiding price volatility. The proposed framework allows assessing long-term electricity markets in which multiple policy and market mechanisms interact simultaneously, with market participants responding and adapting to decarbonization pathways.