FedMVP: Federated Multimodal Visual Prompt Tuning for Vision-Language Models

作者: Mainak Singha, Subhankar Roy, Sarthak Mehrotra, Ankit Jha, Moloud Abdar, Biplab Banerjee, Elisa Ricci

分类: cs.CV

发布日期: 2025-04-29 (更新: 2025-09-02)

备注: Accepted in ICCV 2025

🔗 代码/项目: GITHUB

💡 一句话要点

FedMVP：联邦多模态视觉提示调优，提升视觉-语言模型泛化性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 联邦学习 多模态学习 视觉-语言模型 提示调优 泛化能力

📋 核心要点

文本提示调优在联邦学习中易过拟合已知概念，泛化性受限，难以适应未见类别。
FedMVP利用图像和文本属性特征，通过PromptFormer生成多模态视觉提示，提升模型泛化能力。
实验证明，FedMVP在多个数据集上显著提升了视觉-语言模型在未见类别和域上的泛化性能。

📝 摘要（中文）

在联邦学习中，文本提示调优通过调整轻量级的输入tokens（或提示）来适配视觉-语言模型（例如CLIP），同时保持网络权重冻结。训练后，客户端仅将提示与中央服务器共享以进行聚合。然而，文本提示调优容易过度拟合已知概念，限制了其对未见概念的泛化能力。为了解决这个局限性，我们提出了多模态视觉提示调优（FedMVP），它基于多模态上下文信息（来自输入图像和类别的文本属性特征）来调节提示。FedMVP的核心是一个PromptFormer模块，它通过交叉注意力机制协同对齐文本和视觉特征。然后，将动态生成的多模态视觉提示输入到CLIP的冻结视觉编码器中，并结合CLIP相似性损失和一致性损失进行训练。在涵盖三种泛化设置的20个数据集上的大量评估表明，FedMVP不仅保持了在分布内类别和域上的性能，而且还显示出对未见类别和域的更高的泛化能力，超过了最先进的方法，提升幅度为+1.57% - 2.26%。

🔬 方法详解

问题定义：联邦学习环境下的视觉-语言模型，在利用文本提示调优时，容易过拟合本地客户端数据中的已知概念，导致模型在面对未见过的类别或领域时，泛化能力显著下降。现有方法缺乏对图像本身信息的有效利用，以及对文本属性特征的有效融合，限制了模型的泛化性能。

核心思路：FedMVP的核心在于利用多模态信息，即输入图像的视觉特征和类别的文本属性特征，来动态生成视觉提示。通过将视觉和文本信息融合，模型可以更好地理解图像内容，并生成更具判别性的提示，从而提高模型在未见类别上的泛化能力。这种方法避免了仅依赖文本提示带来的过拟合问题。

技术框架：FedMVP的整体框架包括以下几个主要模块：1) 客户端本地训练：每个客户端使用本地数据训练PromptFormer模块。2) PromptFormer模块：该模块接收图像的视觉特征和类别的文本属性特征作为输入，通过交叉注意力机制融合这些特征，生成多模态视觉提示。3) CLIP视觉编码器：将生成的多模态视觉提示输入到预训练的CLIP模型的冻结视觉编码器中。4) 损失函数：使用CLIP相似性损失和一致性损失来优化PromptFormer模块。5) 服务器端聚合：服务器端收集客户端上传的PromptFormer模块参数，进行聚合更新。

关键创新：FedMVP的关键创新在于PromptFormer模块的设计，它能够有效地融合视觉和文本信息，生成动态的多模态视觉提示。与传统的文本提示调优方法相比，FedMVP能够更好地利用图像信息，并避免过拟合已知概念。此外，通过交叉注意力机制，PromptFormer能够学习到视觉和文本特征之间的复杂关系，从而生成更具判别性的提示。

关键设计：PromptFormer模块使用Transformer架构，包含多个Transformer层。交叉注意力机制用于融合视觉和文本特征。CLIP相似性损失用于鼓励生成的提示能够提高CLIP模型对图像和文本的匹配程度。一致性损失用于保证不同客户端生成的提示的一致性。具体的参数设置（如Transformer层数、注意力头数等）需要根据具体任务进行调整。

🖼️ 关键图片

📊 实验亮点

FedMVP在20个数据集上进行了广泛的评估，涵盖了三种泛化设置。实验结果表明，FedMVP不仅保持了在分布内类别和域上的性能，而且还显著提升了在未见类别和域上的泛化能力，超过了最先进的方法，提升幅度为+1.57% - 2.26%。这些结果表明，FedMVP是一种有效的联邦多模态视觉提示调优方法。

🎯 应用场景

FedMVP适用于各种联邦学习场景下的视觉-语言任务，例如图像分类、图像检索等。该方法可以应用于医疗影像分析、自动驾驶、智能零售等领域，在保护用户隐私的前提下，提升模型的泛化能力和性能。未来，该方法可以进一步扩展到其他模态的数据，例如音频、视频等，以实现更全面的多模态联邦学习。

📄 摘要（原文）

In federated learning, textual prompt tuning adapts Vision-Language Models (e.g., CLIP) by tuning lightweight input tokens (or prompts) on local client data, while keeping network weights frozen. After training, only the prompts are shared by the clients with the central server for aggregation. However, textual prompt tuning suffers from overfitting to known concepts, limiting its generalizability to unseen concepts. To address this limitation, we propose Multimodal Visual Prompt Tuning (FedMVP) that conditions the prompts on multimodal contextual information - derived from the input image and textual attribute features of a class. At the core of FedMVP is a PromptFormer module that synergistically aligns textual and visual features through a cross-attention mechanism. The dynamically generated multimodal visual prompts are then input to the frozen vision encoder of CLIP, and trained with a combination of CLIP similarity loss and a consistency loss. Extensive evaluation on 20 datasets, spanning three generalization settings, demonstrates that FedMVP not only preserves performance on in-distribution classes and domains, but also displays higher generalizability to unseen classes and domains, surpassing state-of-the-art methods by a notable margin of +1.57% - 2.26%. Code is available at https://github.com/mainaksingha01/FedMVP.

FedMVP: Federated Multimodal Visual Prompt Tuning for Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理