Byzantine-Resilient Zero-Order Optimization for Communication-Efficient Heterogeneous Federated Learning

📄 arXiv: 2502.00193v1 📥 PDF

作者: Maximilian Egger, Mayank Bakshi, Rawad Bitar

分类: cs.LG, cs.CR, cs.DC, stat.ML

发布日期: 2025-01-31


💡 一句话要点

提出CyBeR-0以解决异构联邦学习中的拜占庭攻击问题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 拜占庭攻击 联邦学习 零阶优化 鲁棒聚合 通信效率 非凸目标 数据异构性

📋 核心要点

  1. 现有的联邦学习方法在面对拜占庭攻击时缺乏鲁棒性,导致模型性能下降。
  2. CyBeR-0通过引入变换鲁棒聚合,提供了对非凸目标的收敛保证,增强了系统的鲁棒性。
  3. 实验结果表明,CyBeR-0在通信成本和内存需求上均有显著降低,同时保持了稳定的学习性能。

📝 摘要(中文)

我们提出了CyBeR-0,这是一种抗拜占庭攻击的联邦零阶优化方法,能够在拜占庭攻击下保持鲁棒性,并显著降低上行和下行通信成本。我们引入了变换鲁棒聚合,为一般非凸目标在客户端数据异构性下提供收敛保证。通过对标准学习任务和大型语言模型微调的实证评估,CyBeR-0展示了稳定的性能,仅需少量标量的每轮通信成本,并减少了内存需求。

🔬 方法详解

问题定义:本论文旨在解决异构联邦学习中,现有方法在拜占庭攻击下的脆弱性。传统方法在面对恶意客户端时,容易导致模型性能显著下降,且通信成本高昂。

核心思路:CyBeR-0的核心思想是通过变换鲁棒聚合技术,增强模型对拜占庭攻击的抵抗力,同时优化通信效率。该方法通过减少每轮所需的通信标量,降低了整体通信成本。

技术框架:CyBeR-0的整体架构包括数据收集、变换鲁棒聚合和模型更新三个主要模块。首先,客户端收集本地数据并进行初步计算;然后,通过变换鲁棒聚合进行数据融合;最后,更新全局模型并进行下一轮训练。

关键创新:本研究的关键创新在于提出了变换鲁棒聚合方法,能够在客户端数据异构性和非凸目标下,提供收敛保证。这一方法与传统的聚合方式相比,显著提高了模型的鲁棒性和效率。

关键设计:在设计上,CyBeR-0采用了特定的损失函数和参数设置,以确保在不同数据分布下的稳定性。此外,模型结构经过优化,以适应低通信成本的需求。具体的参数设置和网络结构细节在实验部分进行了详细说明。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果显示,CyBeR-0在标准学习任务和大型语言模型微调中,通信成本仅需少量标量,且内存需求显著降低。与基线方法相比,CyBeR-0在面对拜占庭攻击时,模型性能保持稳定,展示了其优越的鲁棒性和效率。

🎯 应用场景

该研究的潜在应用场景包括分布式机器学习、智能边缘计算和大规模数据处理等领域。CyBeR-0的鲁棒性和通信效率使其适用于需要保护数据隐私的环境,尤其是在金融、医疗和物联网等行业中,能够有效提升模型的安全性和可靠性。

📄 摘要(原文)

We introduce CyBeR-0, a Byzantine-resilient federated zero-order optimization method that is robust under Byzantine attacks and provides significant savings in uplink and downlink communication costs. We introduce transformed robust aggregation to give convergence guarantees for general non-convex objectives under client data heterogeneity. Empirical evaluations for standard learning tasks and fine-tuning large language models show that CyBeR-0 exhibits stable performance with only a few scalars per-round communication cost and reduced memory requirements.