Semi-Supervised Fine-Tuning of Vision Foundation Models with Content-Style Decomposition

📄 arXiv: 2410.02069v2 📥 PDF

作者: Mariia Drozdova, Vitaliy Kinakh, Yury Belousov, Erica Lastufka, Slava Voloshynovskiy

分类: cs.CV, cs.LG

发布日期: 2024-10-02 (更新: 2024-10-04)

备注: preprint


💡 一句话要点

提出基于内容-风格分解的半监督微调方法,提升视觉基础模型在低标注数据下的性能。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 半监督学习 视觉基础模型 内容-风格分解 微调 信息论

📋 核心要点

  1. 现有方法在标注数据有限时,预训练模型微调效果不佳,难以适应下游任务的分布偏移。
  2. 利用内容-风格分解,将图像分解为内容和风格信息,从而更好地对齐任务目标,提升泛化能力。
  3. 在多个数据集上验证,结果表明在低标注数据情况下,该方法优于监督微调基线。

📝 摘要(中文)

本文提出了一种半监督微调方法,旨在提升预训练基础模型在下游任务中,尤其是在标注数据有限情况下的性能。该方法利用信息论框架下的内容-风格分解,增强预训练视觉基础模型的潜在表示,使其更有效地与特定任务目标对齐,并解决分布偏移问题。我们在多个数据集上评估了该方法,包括MNIST及其增强变体(带有黄色和白色条纹)、CIFAR-10、SVHN和GalaxyMNIST。实验结果表明,对于大多数测试数据集,在低标注数据情况下,无论骨干网络是否可训练,该方法都优于预训练模型的监督微调基线。

🔬 方法详解

问题定义:论文旨在解决预训练视觉基础模型在下游任务中,当标注数据有限时,微调效果不佳的问题。现有方法难以有效利用未标注数据,并且容易受到分布偏移的影响,导致模型泛化能力下降。

核心思路:论文的核心思路是利用内容-风格分解,将图像分解为与语义内容相关的部分和与风格相关的部分。通过这种分解,模型可以更好地学习到与任务相关的特征,并减少风格变化带来的干扰。同时,利用未标注数据进行半监督学习,进一步提升模型的泛化能力。

技术框架:整体框架包含内容编码器、风格编码器和解码器。内容编码器提取图像的内容特征,风格编码器提取图像的风格特征。解码器利用内容特征和风格特征重建图像。在半监督学习阶段,使用标注数据进行监督学习,同时使用未标注数据进行内容-风格分解和重建。

关键创新:最重要的技术创新点在于将内容-风格分解与半监督学习相结合,用于微调预训练视觉基础模型。这种方法能够有效地利用未标注数据,并减少分布偏移的影响,从而提升模型在低标注数据下的性能。与现有方法相比,该方法能够更好地分离内容和风格信息,并学习到更鲁棒的特征表示。

关键设计:论文中使用了信息论框架来指导内容-风格分解,例如使用互信息最小化来保证内容和风格的解耦。损失函数包括监督学习损失、重建损失和互信息损失。具体的网络结构和参数设置根据不同的数据集和任务进行调整。例如,可以使用不同的预训练模型作为内容编码器,并设计不同的风格编码器和解码器。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在MNIST、CIFAR-10、SVHN和GalaxyMNIST等数据集上,该方法在低标注数据情况下,显著优于监督微调基线。例如,在某些数据集上,该方法在仅使用少量标注数据的情况下,就能达到与使用大量标注数据的监督微调方法相当甚至更好的性能。此外,实验还验证了该方法在不同骨干网络下的有效性。

🎯 应用场景

该研究成果可应用于图像分类、目标检测、图像分割等计算机视觉任务,尤其是在医疗图像分析、遥感图像处理等标注数据获取成本较高的领域具有重要应用价值。通过利用大量未标注数据,可以有效降低模型训练成本,提升模型性能,加速相关技术的落地应用。

📄 摘要(原文)

In this paper, we present a semi-supervised fine-tuning approach designed to improve the performance of pre-trained foundation models on downstream tasks with limited labeled data. By leveraging content-style decomposition within an information-theoretic framework, our method enhances the latent representations of pre-trained vision foundation models, aligning them more effectively with specific task objectives and addressing the problem of distribution shift. We evaluate our approach on multiple datasets, including MNIST, its augmented variations (with yellow and white stripes), CIFAR-10, SVHN, and GalaxyMNIST. The experiments show improvements over supervised finetuning baseline of pre-trained models, particularly in low-labeled data regimes, across both frozen and trainable backbones for the majority of the tested datasets.