Federated Martingale Posterior Samping
作者: Boning Zhang, Matteo Zecchin, Mingzhao Guo, Dongzhu Liu, Osvaldo Simeone
分类: cs.LG, stat.ML
发布日期: 2026-05-18
备注: 5 pages
💡 一句话要点
提出联邦Martingale后验采样(FMP),解决联邦贝叶斯神经网络中先验难以确定问题。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 联邦学习 贝叶斯神经网络 后验采样 不确定性估计 预测贝叶斯
📋 核心要点
- 联邦贝叶斯神经网络依赖于准确的先验知识,但为过参数化模型设计合适的先验分布极具挑战。
- FMP通过预测分布替代先验-似然对,利用Martingale后验采样方法,在联邦场景下实现参数不确定性估计。
- 实验表明,FMP在MNIST、CIFAR-10和CIFAR-100数据集上表现接近集中式方法,并显著优于共识基线。
📝 摘要(中文)
联邦贝叶斯神经网络需要为模型参数确定先验和似然函数。然而,为现代过参数化模型的权重空间选择有意义的先验非常困难,并且任何一个组成部分的错误设定都可能严重降低准确性和校准性。受到大型语言模型等预测模型快速发展的启发,Martingale后验(也称为预测贝叶斯)用预测分布代替先验-似然对,并通过重复抽取预测样本和重新拟合模型来恢复参数不确定性。然而,直接的联邦实现需要客户端共享本地数据集。本文提出联邦Martingale后验(FMP)采样,这是一种单次、易于并行化的协议,其中每个客户端上传一小组可训练的数据嵌入,服务器集中运行预测采样器。在MNIST、CIFAR-10和CIFAR-100上的实验表明,FMP与集中式对应方法非常匹配,并且显著提高了共识风格基线的校准性。
🔬 方法详解
问题定义:联邦贝叶斯神经网络的一个关键挑战是难以确定模型参数的先验分布。对于现代深度学习模型,尤其是过参数化的模型,权重空间的先验分布设计非常困难。先验分布的错误设定会导致模型准确性和校准性下降。此外,直接的联邦贝叶斯方法通常需要客户端共享本地数据,这在隐私保护方面存在问题。
核心思路:论文的核心思路是采用Martingale后验采样(也称为预测贝叶斯)方法,该方法避免了直接指定先验分布,而是使用预测分布来代替先验-似然对。通过重复抽取预测样本并重新拟合模型,可以恢复参数的不确定性。为了适应联邦学习场景,论文提出了联邦Martingale后验(FMP)采样,旨在实现分布式的Martingale后验采样。
技术框架:FMP的整体框架是一个单次、易于并行化的协议。主要包含以下步骤:1) 每个客户端使用本地数据训练一个数据嵌入模型,并将训练好的数据嵌入上传到服务器。2) 服务器接收到所有客户端上传的数据嵌入后,集中运行预测采样器,进行Martingale后验采样。3) 服务器将采样结果用于后续的模型预测或不确定性估计。
关键创新:FMP的关键创新在于将Martingale后验采样方法应用于联邦学习场景,从而避免了在联邦贝叶斯神经网络中直接指定先验分布的难题。通过客户端上传数据嵌入,而不是原始数据,实现了隐私保护。此外,FMP采用单次通信协议,降低了通信成本。
关键设计:FMP的关键设计包括:1) 数据嵌入模型的选择和训练方法,需要保证数据嵌入能够充分代表本地数据的信息,同时避免泄露隐私。2) 预测采样器的设计,需要保证采样效率和采样结果的准确性。3) 如何将采样结果应用于后续的模型预测或不确定性估计,例如,可以使用采样得到的模型参数进行模型集成。
🖼️ 关键图片
📊 实验亮点
实验结果表明,FMP在MNIST、CIFAR-10和CIFAR-100数据集上表现接近集中式Martingale后验采样方法,并且显著提高了共识风格基线的校准性。这意味着FMP可以在联邦学习场景下有效地实现模型的不确定性估计,并且具有良好的泛化能力。
🎯 应用场景
FMP可应用于各种需要联邦学习和模型不确定性估计的场景,例如:医疗诊断、金融风控、自动驾驶等。在这些场景中,数据分布在不同的机构或设备上,且数据隐私非常重要。FMP可以在保护数据隐私的前提下,实现模型的准确预测和不确定性估计,从而提高决策的可靠性。
📄 摘要(原文)
Federated Bayesian neural networks require fixing a prior on the model parameters together with a likelihood. Eliciting meaningful priors on the weight space of modern overparameterized models is notoriously difficult, and misspecification of either component can severely degrade accuracy and calibration. Motivated by the rapid progress of predictive models such as large language models, the martingale posterior, also known as predictive Bayes, replaces the prior--likelihood pair with a predictive distribution and recovers parameter uncertainty by repeatedly drawing predictive samples and refitting the model. A direct federated implementation, however, would require clients to share the local data sets. This letter proposes {federated martingale posterior} (FMP) sampling, a one-shot embarrassingly parallel protocol in which each client uploads a small set of trainable data embeddings and the server runs the predictive sampler centrally. Experiments on MNIST, CIFAR-10, and CIFAR-100 show that FMP closely matches the centralized counterpart and significantly improves calibration over consensus-style baselines.