Towards Dynamic Resource Allocation and Client Scheduling in Hierarchical Federated Learning: A Two-Phase Deep Reinforcement Learning Approach
作者: Xiaojing Chen, Zhenyuan Li, Wei Ni, Xin Wang, Shunqing Zhang, Yanzan Sun, Shugong Xu, Qingqi Pei
分类: cs.LG, cs.DC, math.OC
发布日期: 2024-06-21
💡 一句话要点
提出一种双阶段深度强化学习框架,用于能量收集驱动的分层联邦学习中动态资源分配和客户端调度。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)
关键词: 分层联邦学习 深度强化学习 资源分配 客户端调度 能量收集 DDPG 边缘计算
📋 核心要点
- 分层联邦学习(HFL)在能量、计算、通信和客户端调度方面面临多重挑战,尤其是在客户端依赖能量收集供电时。
- 论文提出TP-DDPG框架,将优化决策分为两组,利用DDPG学习客户端选择、CPU配置和传输功率,另一组作为环境提供奖励。
- 实验结果表明,TP-DDPG能有效缩短HFL训练时间,与基准相比,在保证测试精度的情况下,训练时间缩短了39.4%。
📝 摘要(中文)
本文提出了一种新的双阶段深度确定性策略梯度(DDPG)框架,称为“TP-DDPG”,用于平衡能量收集驱动的分层联邦学习(HFL)系统中的在线学习延迟和模型精度。核心思想是将优化决策分为两组,并采用DDPG学习第一组,同时将另一组解释为环境的一部分,为第二阶段的DDPG训练提供奖励。具体而言,DDPG学习参与客户端的选择、它们的CPU配置和传输功率。一种新的感知掉队者的客户端关联和带宽分配(SCABA)算法有效地优化其他决策,并评估DDPG的奖励。实验表明,在显著减少可学习参数数量的情况下,当HFL的所需测试精度为0.9时,与基准相比,TP-DDPG可以快速收敛到有效的策略,从而缩短HFL的训练时间39.4%。
🔬 方法详解
问题定义:现有分层联邦学习系统在资源分配和客户端调度方面存在挑战,尤其是在能量收集驱动的场景下。客户端的能量供应不稳定,计算和通信资源受限,如何动态地分配资源,选择合适的客户端参与训练,以平衡学习延迟和模型精度是一个关键问题。现有的方法难以有效地解决这些问题,尤其是在考虑客户端掉队者的情况下。
核心思路:论文的核心思路是将资源分配和客户端调度问题分解为两个阶段,并利用深度强化学习(DRL)来优化关键决策。通过将一部分决策(客户端选择、CPU配置、传输功率)交给DDPG学习,另一部分决策(客户端关联和带宽分配)通过SCABA算法优化,从而降低了问题的复杂度,提高了学习效率。这种分解使得DDPG能够专注于学习对模型精度和训练时间影响最大的决策。
技术框架:TP-DDPG框架包含两个阶段。第一阶段,DDPG智能体根据环境状态(如客户端的能量状态、数据量等)选择参与训练的客户端,并配置它们的CPU频率和传输功率。第二阶段,SCABA算法根据第一阶段的决策,进行客户端关联和带宽分配,并计算奖励信号反馈给DDPG智能体。DDPG智能体根据奖励信号更新策略,从而优化客户端选择、CPU配置和传输功率的决策。整个过程迭代进行,直到模型收敛。
关键创新:论文的关键创新在于提出了双阶段的DDPG框架,将复杂的资源分配和客户端调度问题分解为两个相对独立的子问题,并分别使用DDPG和SCABA算法进行优化。这种分解降低了问题的维度,提高了学习效率。此外,SCABA算法考虑了客户端掉队者的情况,能够更有效地利用资源,提高模型的鲁棒性。
关键设计:DDPG智能体的状态空间包括客户端的能量状态、数据量、信道质量等信息。动作空间包括客户端的选择、CPU频率和传输功率。奖励函数的设计目标是平衡学习延迟和模型精度,同时考虑能量消耗。SCABA算法采用贪心策略,优先选择信道质量好、能量充足的客户端进行关联和带宽分配。损失函数采用标准的DDPG损失函数,包括Actor网络的策略梯度损失和Critic网络的均方误差损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,TP-DDPG框架能够显著缩短HFL的训练时间。当HFL的所需测试精度为0.9时,与基准方法相比,TP-DDPG可以将训练时间缩短39.4%。此外,TP-DDPG框架在减少可学习参数数量方面也具有优势,从而提高了学习效率和泛化能力。这些结果表明,TP-DDPG是一种有效的资源分配和客户端调度方法,能够提高能量收集驱动的分层联邦学习系统的性能。
🎯 应用场景
该研究成果可应用于各种边缘计算场景,尤其是在资源受限、能量供应不稳定的环境中,例如物联网设备、智能交通系统、无线传感器网络等。通过动态地分配资源和调度客户端,可以提高联邦学习的效率和鲁棒性,从而实现更快速、更准确的模型训练。此外,该方法还可以扩展到其他类型的联邦学习系统,例如异构联邦学习和个性化联邦学习。
📄 摘要(原文)
Federated learning (FL) is a viable technique to train a shared machine learning model without sharing data. Hierarchical FL (HFL) system has yet to be studied regrading its multiple levels of energy, computation, communication, and client scheduling, especially when it comes to clients relying on energy harvesting to power their operations. This paper presents a new two-phase deep deterministic policy gradient (DDPG) framework, referred to as ``TP-DDPG'', to balance online the learning delay and model accuracy of an FL process in an energy harvesting-powered HFL system. The key idea is that we divide optimization decisions into two groups, and employ DDPG to learn one group in the first phase, while interpreting the other group as part of the environment to provide rewards for training the DDPG in the second phase. Specifically, the DDPG learns the selection of participating clients, and their CPU configurations and the transmission powers. A new straggler-aware client association and bandwidth allocation (SCABA) algorithm efficiently optimizes the other decisions and evaluates the reward for the DDPG. Experiments demonstrate that with substantially reduced number of learnable parameters, the TP-DDPG can quickly converge to effective polices that can shorten the training time of HFL by 39.4% compared to its benchmarks, when the required test accuracy of HFL is 0.9.