FAST: Federated Active Learning with Foundation Models for Communication-efficient Sampling and Training

📄 arXiv: 2504.03783v4 📥 PDF

作者: Haoyuan Li, Mathias Funk, Jindong Wang, Aaqib Saeed

分类: cs.LG, cs.AI, cs.CV, cs.DC

发布日期: 2025-04-03 (更新: 2025-05-19)

备注: Accepted at IEEE Internet of Things Journal


💡 一句话要点

FAST:基于联邦学习和基础模型的高效通信主动学习框架

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 主动学习 基础模型 弱监督学习 通信效率 数据隐私

📋 核心要点

  1. 现有联邦主动学习方法通信成本高,标注效率低,难以在实际场景中部署。
  2. FAST框架利用基础模型进行弱标签,并专注于不确定样本的细化,减少迭代采样开销。
  3. 实验表明,FAST在降低通信轮次的同时,性能优于现有方法,尤其是在标注预算有限的情况下。

📝 摘要(中文)

联邦主动学习(FAL)已成为一种有前景的框架,它能够利用分布式客户端的大量未标记数据,同时保护数据隐私。然而,实际部署仍然受到高昂的标注成本和通信密集型采样过程的限制,尤其是在跨孤岛环境中,当客户端拥有大量本地数据集时。本文旨在解决一个关键问题:在人工参与的循环学习中,如何在最小化标注者工作量的情况下,最大限度地降低通信成本?现有的FAL方法通常依赖于迭代标注过程,将主动采样与联邦更新分离,导致多轮昂贵的通信和标注。为此,我们引入FAST,一种两阶段FAL框架,它利用基础模型在初步阶段进行弱标签,然后在专门针对最不确定样本的细化阶段进行处理。通过利用来自基础模型的表征知识,并将细化步骤集成到简化的工作流程中,FAST显著降低了迭代主动采样带来的开销。在各种医学和自然图像基准上的大量实验表明,在有限的5%标注预算下,FAST优于现有的FAL方法,平均提高了4.36%,同时减少了八倍的通信轮次。

🔬 方法详解

问题定义:现有的联邦主动学习方法在跨机构数据场景下,面临着高昂的标注成本和通信开销。传统的迭代式主动学习方法需要多轮通信来选择需要标注的样本,这在客户端拥有大量本地数据集时变得尤其低效。因此,如何在有限的标注预算下,降低通信成本,提高学习效率是亟待解决的问题。

核心思路:FAST的核心思路是利用预训练的基础模型,先对所有未标注数据进行一次弱标注,然后仅对弱标注结果中最不确定的样本进行人工标注和模型微调。这样可以将迭代式的主动采样过程简化为两阶段流程,从而显著减少通信轮次。

技术框架:FAST框架包含两个主要阶段:1) 弱标注阶段:利用预训练的基础模型(如CLIP)对客户端的未标注数据进行弱标注。2) 细化阶段:服务器根据客户端上传的弱标注结果,选择最不确定的样本进行人工标注,然后将标注数据发送回客户端进行模型微调。客户端使用标注数据更新本地模型,并将更新后的模型参数上传到服务器进行联邦平均。

关键创新:FAST的关键创新在于将基础模型的表征能力与联邦主动学习相结合,通过弱标注来指导样本选择,避免了传统方法中昂贵的迭代式采样过程。这种两阶段的设计显著降低了通信成本,提高了标注效率。

关键设计:FAST的关键设计包括:1) 使用预训练的视觉-语言模型CLIP作为基础模型,提取图像的视觉特征和文本描述的语义特征,计算相似度作为弱标签。2) 使用不确定性采样策略,选择弱标注结果中最不确定的样本进行人工标注。不确定性可以通过模型预测的置信度或不同模型预测结果的差异来衡量。3) 使用联邦平均算法,将客户端上传的模型参数进行聚合,得到全局模型。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在医疗图像和自然图像数据集上,FAST框架在5%的标注预算下,相比现有联邦主动学习方法,平均提升了4.36%的性能,同时减少了8倍的通信轮次。这表明FAST在降低通信成本和提高学习效率方面具有显著优势。

🎯 应用场景

FAST框架适用于医疗影像分析、遥感图像识别等领域,尤其是在数据分布在多个机构且标注成本高昂的场景下。该方法可以有效利用大量未标注数据,降低标注成本,提高模型性能,具有重要的实际应用价值。未来,FAST可以扩展到其他模态的数据,例如文本、语音等,并应用于更广泛的联邦学习场景。

📄 摘要(原文)

Federated Active Learning (FAL) has emerged as a promising framework to leverage large quantities of unlabeled data across distributed clients while preserving data privacy. However, real-world deployments remain limited by high annotation costs and communication-intensive sampling processes, particularly in a cross-silo setting, when clients possess substantial local datasets. This paper addresses the crucial question: What is the best practice to reduce communication costs in human-in-the-loop learning with minimal annotator effort? Existing FAL methods typically rely on iterative annotation processes that separate active sampling from federated updates, leading to multiple rounds of expensive communication and annotation. In response, we introduce FAST, a two-pass FAL framework that harnesses foundation models for weak labeling in a preliminary pass, followed by a refinement pass focused exclusively on the most uncertain samples. By leveraging representation knowledge from foundation models and integrating refinement steps into a streamlined workflow, FAST substantially reduces the overhead incurred by iterative active sampling. Extensive experiments on diverse medical and natural image benchmarks demonstrate that FAST outperforms existing FAL methods by an average of 4.36% while reducing communication rounds eightfold under a limited 5% labeling budget.