Unlearning the Noisy Correspondence Makes CLIP More Robust
作者: Haochen Han, Alex Jinpeng Wang, Peijun Ye, Fangming Liu
分类: cs.CV, cs.MM
发布日期: 2025-07-04
备注: ICCV 2025
💡 一句话要点
提出NCU框架,通过解耦噪声关联提升CLIP模型的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言模型 噪声关联 鲁棒性 解耦学习 最优传输
📋 核心要点
- 大规模视觉-语言模型训练易受噪声数据影响,降低模型鲁棒性。
- 提出噪声关联解耦(NCU)框架,通过遗忘噪声知识来提升模型鲁棒性。
- 实验表明,NCU在零样本迁移任务上超越现有鲁棒预训练方法,且计算开销更低。
📝 摘要(中文)
视觉-语言模型(VLM)的数据需求已从早期的数百万级持续扩展到如今的数十亿级,这面临着与数据质量之间不可持续的权衡,并不可避免地引入了噪声关联(NC)样本。毫无疑问,这种语义上不相关的数据会显著损害VLM的性能。以往的研究主要通过估计更精确的对齐来提供更精确的指导来解决这一挑战。然而,这种从头开始训练VLM的资源密集型流程难以满足实际的数据需求。在本文中,我们提出了一个全新的视角,旨在直接消除预训练VLM中NC的有害影响。具体来说,我们提出了NCU,一个噪声关联解耦微调框架,通过遗忘学习到的噪声知识来有效地增强VLM的鲁棒性。NCU的关键是学习最难的负样本信息,这可以为假阳性和假阴性提供明确的解耦方向。这种双重目标的解耦过程可以形式化为一个统一的最优传输目标,以实现快速微调。我们在各种下游任务上使用流行的CLIP模型验证了我们的方法。值得注意的是,NCU在零样本迁移上超越了鲁棒的预训练方法,同时具有更低的计算开销。
🔬 方法详解
问题定义:论文旨在解决视觉-语言模型(VLMs)在大规模数据训练中,由于数据集中存在噪声关联(Noisy Correspondence, NC)样本,导致模型鲁棒性下降的问题。现有方法通常尝试通过更精确的对齐来缓解这个问题,但这些方法需要从头开始训练模型,计算资源消耗巨大,难以满足实际需求。
核心思路:论文的核心思路是直接消除预训练VLMs中噪声关联的有害影响,而不是重新训练模型。通过“遗忘”模型学习到的噪声知识,从而提升模型的鲁棒性。关键在于找到并学习最难的负样本信息,为解耦过程提供明确的方向。
技术框架:NCU框架主要包含以下几个阶段:1) 识别噪声关联样本。2) 学习最难的负样本信息,为解耦过程提供明确的方向。3) 通过最优传输目标函数进行快速微调,实现对噪声知识的遗忘。整体框架旨在高效地提升预训练VLMs的鲁棒性,而无需从头开始训练。
关键创新:论文的关键创新在于提出了一个全新的视角,即通过“遗忘”噪声知识来提升模型的鲁棒性,而不是像传统方法那样尝试学习更精确的对齐。此外,论文还提出了一个统一的最优传输目标函数,用于快速微调,实现了高效的噪声解耦。
关键设计:NCU框架的关键设计包括:1) 如何定义和识别“最难的负样本信息”。2) 如何将双重目标的解耦过程形式化为一个统一的最优传输目标函数。3) 如何在微调过程中有效地“遗忘”噪声知识,同时保留模型的泛化能力。具体的损失函数和参数设置在论文中进行了详细描述,但具体细节未知。
🖼️ 关键图片
📊 实验亮点
NCU框架在零样本迁移任务上超越了现有的鲁棒预训练方法,同时具有更低的计算开销。这表明NCU能够有效地消除噪声关联的有害影响,提升模型的泛化能力和鲁棒性。具体的性能提升数据和对比基线在论文中进行了详细展示,但具体数值未知。
🎯 应用场景
该研究成果可应用于各种视觉-语言模型的训练和优化,尤其是在数据质量难以保证的场景下。例如,可以用于提升CLIP模型在图像搜索、图像分类、文本生成等任务中的性能和鲁棒性。该方法具有较低的计算开销,有望促进VLMs在资源受限环境下的应用。
📄 摘要(原文)
The data appetite for Vision-Language Models (VLMs) has continuously scaled up from the early millions to billions today, which faces an untenable trade-off with data quality and inevitably introduces Noisy Correspondence (NC) samples. Undoubtedly, such semantically unrelated data significantly impairs the performance of VLMs. Previous efforts mainly address this challenge by estimating refined alignment for more precise guidance. However, such resource-intensive pipelines that train VLMs from scratch struggle to meet realistic data demands. In this paper, we present a brand new perspective that seeks to directly eliminate the harmful effects of NC in pre-trained VLMs. Specifically, we propose NCU, a Noisy Correspondence Unlearning fine-tuning framework that efficiently enhances VLMs' robustness by forgetting learned noisy knowledge. The key to NCU is learning the hardest negative information, which can provide explicit unlearning direction for both false positives and false negatives. Such twin goals unlearning process can be formalized into one unified optimal transport objective for fast fine-tuning. We validate our approach with the prevailing CLIP model over various downstream tasks. Remarkably, NCU surpasses the robust pre-trained method on zero-shot transfer while with lower computational overhead. The code will be released upon acceptance.