DeFRiS: Silo-Cooperative IoT Applications Scheduling via Decentralized Federated Reinforcement Learning

📄 arXiv: 2603.14729v1 📥 PDF

作者: Zhiyu Wang, Mohammad Goudarzi, Mingming Gong, Rajkumar Buyya

分类: cs.LG, cs.DC

发布日期: 2026-03-16


💡 一句话要点

DeFRiS:通过去中心化联邦强化学习实现Silo协同物联网应用调度

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 联邦强化学习 物联网调度 去中心化学习 异构资源管理 鲁棒性 Silo协同 Non-IID数据 梯度指纹

📋 核心要点

  1. 现有物联网应用调度方法难以应对跨自治域的异构资源和数据隐私需求,中心化方法扩展性差,独立学习无法有效利用全局知识。
  2. DeFRiS通过去中心化联邦强化学习,利用动作空间无关策略、Silo优化本地学习和鲁棒聚合协议,实现高效且安全的协同调度。
  3. 实验表明,DeFRiS在响应时间、能耗、延迟风险和鲁棒性方面均显著优于现有方法,尤其在扩展性和对抗攻击场景下表现突出。

📝 摘要(中文)

下一代物联网应用越来越多地跨越自治管理实体,需要Silo协同调度以利用多样化的计算资源,同时保护数据隐私。然而,实现高效合作面临着基础设施异构性、Non-IID工作负载变化以及对抗环境的固有风险等重大挑战。现有的主要依赖于中心化协调或独立学习的方法,无法解决异构Silo之间状态-动作空间的不兼容性,并且缺乏对抗恶意攻击的鲁棒性。本文提出了DeFRiS,一个用于鲁棒和可扩展的Silo协同物联网应用调度的去中心化联邦强化学习框架。DeFRiS集成了三个协同创新:(i) 一种动作空间不可知的策略,利用候选资源评分来实现跨异构Silo的无缝知识转移;(ii) 一种Silo优化的本地学习机制,结合广义优势估计(GAE)与裁剪策略更新来解决稀疏延迟奖励挑战;(iii) 一种双轨Non-IID鲁棒去中心化聚合协议,利用梯度指纹进行相似性感知知识转移和异常检测,以及梯度跟踪来优化动量。在具有20个异构Silo和真实物联网工作负载的分布式测试平台上进行的大量实验表明,DeFRiS显著优于最先进的基线,平均响应时间减少6.4%,能耗降低7.2%,同时降低尾部延迟风险(CVaR$_{0.95}$) 10.4%,并实现接近零的截止时间违规。此外,DeFRiS在系统扩展时实现了3倍以上的性能保持,在对抗环境中实现了8倍以上的稳定性。

🔬 方法详解

问题定义:论文旨在解决跨多个自治管理域(Silos)的物联网应用调度问题。现有方法,如中心化调度,无法很好地扩展到大量Silos,且存在数据隐私泄露风险。独立学习的方法则无法有效利用其他Silos的知识,导致性能不佳。此外,系统还面临着异构资源、Non-IID数据分布以及潜在的恶意攻击等挑战。

核心思路:DeFRiS的核心思路是利用去中心化的联邦强化学习,在保护数据隐私的前提下,实现Silos之间的协同调度。通过设计动作空间无关的策略,使得不同Silos可以共享知识,克服异构性带来的挑战。同时,采用鲁棒的聚合协议,增强系统对抗恶意攻击的能力。

技术框架:DeFRiS框架包含三个主要组成部分:1) 动作空间无关策略:每个Silo使用本地的强化学习智能体,但策略设计允许知识在不同Silo之间转移。2) Silo优化本地学习:每个Silo使用广义优势估计(GAE)和裁剪策略更新来优化本地策略,解决稀疏奖励问题。3) 双轨Non-IID鲁棒去中心化聚合协议:该协议包含两个轨道,一个用于相似性感知的知识转移和异常检测(使用梯度指纹),另一个用于优化动量(使用梯度跟踪)。

关键创新:DeFRiS的关键创新在于其去中心化的联邦强化学习架构,以及针对Silo协同调度问题设计的三个核心组件。动作空间无关策略使得知识可以在异构Silos之间共享,鲁棒聚合协议增强了系统对抗恶意攻击的能力,Silo优化本地学习则提高了学习效率。与现有方法相比,DeFRiS在扩展性、鲁棒性和性能方面都具有显著优势。

关键设计:动作空间无关策略通过候选资源评分实现,每个Silo根据本地状态对其他Silos的资源进行评分,并选择得分最高的资源进行调度。Silo优化本地学习使用GAE来估计优势函数,并使用PPO的裁剪策略更新来稳定训练过程。鲁棒聚合协议使用梯度指纹来衡量不同Silos梯度之间的相似性,并根据相似性进行加权平均,从而实现知识转移和异常检测。梯度跟踪则用于跟踪全局梯度方向,并将其作为优化动量,加速收敛。

📊 实验亮点

实验结果表明,DeFRiS在包含20个异构Silo的分布式测试平台上,相比最先进的基线方法,平均响应时间减少了6.4%,能耗降低了7.2%,尾部延迟风险(CVaR$_{0.95}$)降低了10.4%,并实现了接近零的截止时间违规。此外,DeFRiS在系统扩展时实现了3倍以上的性能保持,在对抗环境中实现了8倍以上的稳定性,证明了其优越的扩展性和鲁棒性。

🎯 应用场景

DeFRiS适用于各种需要跨多个自治域进行资源协同的物联网应用场景,例如智慧城市中的交通管理、能源分配和环境监测等。该框架能够在保护数据隐私的同时,提高资源利用率和系统性能,并增强系统的鲁棒性,使其能够适应复杂和动态的环境。未来,DeFRiS可以扩展到更多的应用领域,例如工业物联网和边缘计算等。

📄 摘要(原文)

Next-generation IoT applications increasingly span across autonomous administrative entities, necessitating silo-cooperative scheduling to leverage diverse computational resources while preserving data privacy. However, realizing efficient cooperation faces significant challenges arising from infrastructure heterogeneity, Non-IID workload shifts, and the inherent risks of adversarial environments. Existing approaches, relying predominantly on centralized coordination or independent learning, fail to address the incompatibility of state-action spaces across heterogeneous silos and lack robustness against malicious attacks. This paper proposes DeFRiS, a Decentralized Federated Reinforcement Learning framework for robust and scalable Silo-cooperative IoT application scheduling. DeFRiS integrates three synergistic innovations: (i) an action-space-agnostic policy utilizing candidate resource scoring to enable seamless knowledge transfer across heterogeneous silos; (ii) a silo-optimized local learning mechanism combining Generalized Advantage Estimation (GAE) with clipped policy updates to resolve sparse delayed reward challenges; and (iii) a Dual-Track Non-IID robust decentralized aggregation protocol leveraging gradient fingerprints for similarity-aware knowledge transfer and anomaly detection, and gradient tracking for optimization momentum. Extensive experiments on a distributed testbed with 20 heterogeneous silos and realistic IoT workloads demonstrate that DeFRiS significantly outperforms state-of-the-art baselines, reducing average response time by 6.4% and energy consumption by 7.2%, while lowering tail latency risk (CVaR$_{0.95}$) by 10.4% and achieving near-zero deadline violations. Furthermore, DeFRiS achieves over 3 times better performance retention as the system scales and over 8 times better stability in adversarial environments compared to the best-performing baseline.