Byzantine-Robust and Differentially Private Federated Optimization under Weaker Assumptions

📄 arXiv: 2603.23472v1 📥 PDF

作者: Rustem Islamov, Grigory Malinovsky, Alexander Gaponov, Aurelien Lucchi, Peter Richtárik, Eduard Gorbunov

分类: cs.LG, cs.CR, math.OC

发布日期: 2026-03-24

备注: 12 pages, 3 figures


💡 一句话要点

提出Byz-Clip21-SGD2M算法,解决拜占庭鲁棒和差分隐私联邦优化问题

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 联邦学习 差分隐私 拜占庭鲁棒性 鲁棒聚合 双动量

📋 核心要点

  1. 现有联邦学习方法在拜占庭攻击和差分隐私保护方面存在不足,依赖不切实际的假设,缺乏收敛保证。
  2. 提出Byz-Clip21-SGD2M算法,结合鲁棒聚合、双动量和裁剪技术,实现拜占庭鲁棒和差分隐私的联邦优化。
  3. 理论分析证明了算法在高概率下的收敛性,实验结果验证了算法在MNIST数据集上的有效性。

📝 摘要(中文)

联邦学习(FL)允许多个异构客户端在不集中原始数据的情况下协作训练共享模型,从而提供内在的隐私级别。然而,梯度和模型更新仍然可能泄露敏感信息,同时恶意服务器可能会发起拜占庭攻击等对抗性攻击。这些漏洞突显了在一个统一的框架内解决差分隐私(DP)和拜占庭鲁棒性的必要性。然而,现有的方法通常依赖于不切实际的假设,例如有界梯度,需要辅助服务器端数据集,或者无法提供收敛保证。我们通过提出Byz-Clip21-SGD2M算法来解决这些限制,该算法集成了鲁棒聚合与双动量和精心设计的裁剪。我们证明了在标准$L$-smoothness和$σ$-sub-Gaussian梯度噪声假设下的高概率收敛保证,从而放宽了主导先前工作条件。我们的分析在没有对抗者的情况下恢复了最先进的收敛速度,并提高了拜占庭和DP设置下的效用保证。在MNIST上训练的CNN和MLP模型的实证评估进一步验证了我们方法的有效性。

🔬 方法详解

问题定义:论文旨在解决联邦学习中,在存在拜占庭攻击者和需要满足差分隐私约束的情况下,如何保证模型训练的收敛性和效用性的问题。现有方法通常假设梯度有界,或者需要额外的服务器端数据,这些假设在实际应用中难以满足。此外,许多方法无法提供严格的收敛性证明。

核心思路:论文的核心思路是将鲁棒聚合、双动量和梯度裁剪技术相结合,以抵抗拜占庭攻击并满足差分隐私。鲁棒聚合用于过滤恶意客户端的更新,双动量可以加速收敛并减少噪声的影响,梯度裁剪可以限制梯度的大小,从而实现差分隐私。

技术框架:Byz-Clip21-SGD2M算法的整体流程如下: 1. 客户端更新:每个客户端使用本地数据计算梯度,并进行梯度裁剪。 2. 服务器聚合:服务器接收来自客户端的更新,使用鲁棒聚合方法(例如,中位数或Trimmed Mean)过滤恶意更新。 3. 模型更新:服务器使用双动量更新全局模型。 4. 噪声添加:为了满足差分隐私,服务器在聚合后的梯度上添加噪声。 5. 迭代:重复上述步骤,直到模型收敛。

关键创新:该算法的关键创新在于将鲁棒聚合、双动量和梯度裁剪技术有效地结合在一起,从而在拜占庭攻击和差分隐私约束下实现了更好的收敛性和效用性。此外,论文提供了在高概率下的收敛性证明,放宽了现有方法中的一些限制性假设。

关键设计:算法的关键设计包括: 1. 鲁棒聚合方法:选择合适的鲁棒聚合方法,例如Trimmed Mean,以过滤恶意更新。 2. 双动量参数:调整双动量的参数,以平衡收敛速度和噪声的影响。 3. 梯度裁剪阈值:设置合适的梯度裁剪阈值,以满足差分隐私约束,同时避免过度裁剪导致模型性能下降。 4. 噪声添加策略:选择合适的噪声分布和噪声水平,以满足差分隐私约束。

📊 实验亮点

论文在MNIST数据集上进行了实验,结果表明,Byz-Clip21-SGD2M算法在存在拜占庭攻击和差分隐私约束的情况下,仍然能够实现良好的收敛性和准确性。与现有方法相比,该算法在相同的隐私预算下,能够获得更高的模型效用。

🎯 应用场景

该研究成果可应用于各种需要保护用户数据隐私和抵抗恶意攻击的联邦学习场景,例如医疗健康、金融风控、自动驾驶等领域。通过该算法,可以在保护用户数据隐私的同时,提高模型的鲁棒性和准确性,从而促进联邦学习技术的广泛应用。

📄 摘要(原文)

Federated Learning (FL) enables heterogeneous clients to collaboratively train a shared model without centralizing their raw data, offering an inherent level of privacy. However, gradients and model updates can still leak sensitive information, while malicious servers may mount adversarial attacks such as Byzantine manipulation. These vulnerabilities highlight the need to address differential privacy (DP) and Byzantine robustness within a unified framework. Existing approaches, however, often rely on unrealistic assumptions such as bounded gradients, require auxiliary server-side datasets, or fail to provide convergence guarantees. We address these limitations by proposing Byz-Clip21-SGD2M, a new algorithm that integrates robust aggregation with double momentum and carefully designed clipping. We prove high-probability convergence guarantees under standard $L$-smoothness and $σ$-sub-Gaussian gradient noise assumptions, thereby relaxing conditions that dominate prior work. Our analysis recovers state-of-the-art convergence rates in the absence of adversaries and improves utility guarantees under Byzantine and DP settings. Empirical evaluations on CNN and MLP models trained on MNIST further validate the effectiveness of our approach.