Model-Free DRL Control for Power Inverters: From Policy Learning to Real-Time Implementation via Knowledge Distillation
作者: Yang Yang, Chenggang Cui, Xitong Niu, Jiaming Liu, Chuanlin Zhang
分类: eess.SY
发布日期: 2026-03-09
备注: 10 pages, 6 figures, 8 tables, IEEE journal submission. This work proposes a model-free deep reinforcement learning control framework for voltage source inverters, integrating Lyapunov-based reward design and adaptive weighted policy distillation for lightweight real-time implementation, validated by simulation and kilowatt-level hardware experiments
💡 一句话要点
提出基于策略蒸馏的无模型DRL逆变器控制,实现高性能实时部署
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 电力逆变器控制 深度强化学习 策略蒸馏 无模型控制 实时控制
📋 核心要点
- 现有DRL逆变器控制方法难以兼顾控制性能和计算负担,限制了其在实际系统中的部署。
- 论文提出一种基于策略蒸馏的无模型DRL控制框架,将复杂的DRL策略提炼成轻量级神经网络。
- 实验结果表明,该方法能将推理时间降至微秒级,并提升瞬态响应速度和参数鲁棒性。
📝 摘要(中文)
针对深度强化学习(DRL)在电力逆变器应用中控制性能与计算负担之间的权衡问题,本文提出了一种利用策略蒸馏的无模型控制框架。为了解决无模型智能体固有的收敛不稳定性和稳态误差,建立了一种误差能量引导的混合奖励机制,从理论上约束探索空间。更具体地,将自适应重要性加权机制集成到蒸馏架构中,以放大波动区域的重要性,通过减轻由稳态数据主导的观测偏差,确保瞬态控制逻辑的高质量转移。该方法有效地将重型DRL策略压缩为轻量级神经网络,在保持所需控制性能的同时,克服了部署期间的计算瓶颈。所提出的方法通过基于硬件的千瓦级实验平台进行了验证。与传统方法的实验比较结果表明,该技术将推理时间缩短到微秒级,并实现了卓越的瞬态响应速度和参数鲁棒性。
🔬 方法详解
问题定义:电力逆变器的控制需要快速的瞬态响应和稳定的稳态性能。传统的控制方法可能难以适应复杂和非线性的系统动态。直接应用深度强化学习(DRL)虽然可以学习到复杂的控制策略,但其计算量大,难以在实时性要求高的电力逆变器系统中部署。此外,无模型DRL训练过程中的收敛不稳定性和稳态误差也是需要解决的问题。
核心思路:论文的核心思路是通过策略蒸馏,将一个训练好的、计算量大的DRL策略(教师网络)迁移到一个轻量级的神经网络(学生网络)。学生网络在保持教师网络控制性能的同时,显著降低计算复杂度,从而满足电力逆变器实时控制的需求。为了提高蒸馏效果,特别关注瞬态过程中的控制逻辑迁移。
技术框架:整体框架包含三个主要部分:1) DRL教师网络的训练,使用误差能量引导的混合奖励机制来提高训练稳定性和稳态精度;2) 策略蒸馏,将教师网络的策略迁移到学生网络;3) 学生网络的实时部署。误差能量引导的混合奖励机制用于约束探索空间,提高训练效率。自适应重要性加权机制用于在蒸馏过程中放大波动区域的重要性。
关键创新:论文的关键创新在于:1) 提出了误差能量引导的混合奖励机制,提高了无模型DRL的训练稳定性和稳态精度;2) 引入了自适应重要性加权机制,在策略蒸馏过程中更加关注瞬态过程,从而保证了学生网络在瞬态响应方面的性能;3) 将策略蒸馏应用于电力逆变器的DRL控制,解决了计算量大的问题,实现了实时部署。与现有方法相比,该方法能够在保证控制性能的同时,显著降低计算复杂度。
关键设计:误差能量引导的混合奖励机制包括多个奖励项,分别对应不同的控制目标,例如跟踪误差、控制输入等。奖励权重根据误差能量自适应调整,以平衡不同控制目标之间的关系。自适应重要性加权机制通过计算状态转移的梯度来确定重要性权重,梯度越大,表示该状态转移越重要。学生网络采用轻量级的神经网络结构,例如多层感知机(MLP),以降低计算复杂度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,所提出的方法能够将推理时间降低到微秒级别,显著优于传统的控制方法。与传统PID控制相比,该方法在瞬态响应速度和参数鲁棒性方面均有显著提升。在千瓦级硬件实验平台上验证了该方法的有效性和可行性。
🎯 应用场景
该研究成果可广泛应用于电力电子领域,例如光伏逆变器、风力发电变流器、电机驱动器等。通过降低控制器的计算负担,可以实现更快速、更精确的电力电子设备控制,提高能源利用效率和系统稳定性。此外,该方法还可以推广到其他需要实时控制的复杂系统中,例如机器人控制、自动驾驶等。
📄 摘要(原文)
In response to the trade-off between control performance and computational burden hindering the deployment of Deep Reinforcement Learning (DRL) in power inverters, this paper presents a novel model-free control framework leveraging policy distillation. To handle the convergence instability and steady-state errors inherent in model-free agents, an error energy-guided hybrid reward mechanism is established to theoretically constrain the exploration space. More specifically, an adaptive importance weighting mechanism is integrated into the distillation architecture to amplify the significance of fluctuation regions, ensuring high-quality transfer of transient control logic by mitigating the observational bias dominated by steady-state data. This approach efficiently compresses the heavy DRL policy into a lightweight neural network, retaining the desired control performance while overcoming the computational bottleneck during deployment. The proposed method is validated through a hardware-based kilowatt-level experimental platform. Experimental comparison results with traditional methods demonstrate that the proposed technique reduces inference time to the microsecond level and achieves superior transient response speed and parameter robustness.