Contrastive Visual Data Augmentation

📄 arXiv: 2502.17709v2 📥 PDF

作者: Yu Zhou, Bingxuan Li, Mohan Tang, Xiaomeng Jin, Te-Lin Wu, Kuan-Hao Huang, Heng Ji, Kai-Wei Chang, Nanyun Peng

分类: cs.CV, cs.AI, cs.CL, cs.LG, cs.MM

发布日期: 2025-02-24 (更新: 2025-06-05)

期刊: ICML 2025


💡 一句话要点

提出对比视觉数据增强(CoDA)策略,提升LMMs对低资源概念的识别能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对比学习 视觉数据增强 多模态模型 低资源学习 新概念识别

📋 核心要点

  1. LMMs在识别新概念时面临挑战,原因是依赖预训练知识且缺乏捕捉细微视觉细节的能力。
  2. CoDA策略通过提取对比文本和视觉特征,并使用多模态生成模型生成针对性的合成数据,从而增强LMMs的识别能力。
  3. 实验结果表明,CoDA在多个数据集上显著提升了LMMs的准确率,尤其是在新物种识别方面。

📝 摘要(中文)

大型多模态模型(LMMs)常常难以识别新概念,因为它们依赖于预训练知识,且捕捉细微视觉细节的能力有限。训练中领域特定知识的缺失也使它们容易混淆视觉上相似、常被错误表示或低资源的的概念。为了帮助LMMs更好地将细微的视觉特征与语言对齐,提高它们识别和推理新概念或稀有概念的能力,我们提出了一种对比视觉数据增强(CoDA)策略。CoDA提取目标概念与已知概念之间的关键对比文本和视觉特征,然后使用多模态生成模型生成有针对性的合成数据。我们实施了自动过滤提取的特征和增强图像,以保证它们的质量,并通过人工标注员进行了验证。我们在低资源概念和多样场景识别数据集(包括INaturalist和SUN)上展示了CoDA的有效性和效率。我们还收集了NovelSpecies,这是一个由LMMs未见的新发现动物物种组成的基准数据集。LLaVA-1.6在这些数据集上的单样本更新结果表明,CoDA显著优于SOTA视觉数据增强策略,在NovelSpecies、SUN和iNat上的准确率分别提高了12.3%、5.1%和6.0%。

🔬 方法详解

问题定义:大型多模态模型(LMMs)在识别新概念时表现不佳,尤其是在视觉细节微妙、领域知识匮乏或概念属于低资源类别时。现有的方法难以有效区分视觉上相似的概念,导致模型容易混淆和误判。因此,如何提升LMMs对这些新概念的识别能力是一个关键问题。

核心思路:CoDA的核心思路是通过对比学习的方式,让LMMs学习目标概念与其他易混淆概念之间的差异。具体来说,CoDA提取目标概念的关键对比文本和视觉特征,并利用这些特征生成针对性的合成数据。通过在这些合成数据上进行训练,LMMs能够更好地理解目标概念的独特之处,从而提高识别准确率。

技术框架:CoDA包含以下几个主要阶段:1) 对比特征提取:从目标概念和易混淆概念中提取关键的对比文本和视觉特征。2) 合成数据生成:利用多模态生成模型,根据提取的对比特征生成合成图像和文本描述。3) 数据过滤:使用自动过滤机制,筛选掉质量不佳的合成数据。4) 模型训练:使用过滤后的合成数据对LMMs进行微调,提高其对目标概念的识别能力。

关键创新:CoDA的关键创新在于其对比学习的思想和针对性的数据增强策略。与传统的视觉数据增强方法不同,CoDA不是简单地对现有数据进行变换,而是通过提取对比特征并生成合成数据,来显式地增强模型对目标概念独特之处的理解。这种方法能够更有效地解决LMMs在新概念识别方面面临的挑战。

关键设计:在对比特征提取阶段,论文可能使用了特定的损失函数来鼓励模型学习区分目标概念和易混淆概念的特征表示。在合成数据生成阶段,论文可能使用了特定的多模态生成模型,并对其进行了微调,以生成高质量的合成图像和文本描述。数据过滤阶段可能使用了基于规则或机器学习的方法,来自动评估合成数据的质量。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,CoDA在NovelSpecies、SUN和iNat数据集上分别取得了12.3%、5.1%和6.0%的准确率提升,显著优于现有的SOTA视觉数据增强策略。尤其是在NovelSpecies数据集上,CoDA的提升幅度最大,表明其在新概念识别方面具有显著优势。

🎯 应用场景

CoDA具有广泛的应用前景,可用于提升LMMs在各个领域的识别能力,例如生物多样性保护(识别稀有物种)、医学诊断(识别罕见疾病)和工业检测(识别缺陷产品)。该方法能够有效解决低资源概念识别问题,具有重要的实际价值和未来影响。

📄 摘要(原文)

Large multimodal models (LMMs) often struggle to recognize novel concepts, as they rely on pre-trained knowledge and have limited ability to capture subtle visual details. Domain-specific knowledge gaps in training also make them prone to confusing visually similar, commonly misrepresented, or low-resource concepts. To help LMMs better align nuanced visual features with language, improving their ability to recognize and reason about novel or rare concepts, we propose a Contrastive visual Data Augmentation (CoDA) strategy. CoDA extracts key contrastive textual and visual features of target concepts against the known concepts they are misrecognized as, and then uses multimodal generative models to produce targeted synthetic data. Automatic filtering of extracted features and augmented images is implemented to guarantee their quality, as verified by human annotators. We show the effectiveness and efficiency of CoDA on low-resource concept and diverse scene recognition datasets including INaturalist and SUN. We additionally collect NovelSpecies, a benchmark dataset consisting of newly discovered animal species that are guaranteed to be unseen by LMMs. LLaVA-1.6 1-shot updating results on these three datasets show CoDA significantly improves SOTA visual data augmentation strategies by 12.3% (NovelSpecies), 5.1% (SUN), and 6.0% (iNat) absolute gains in accuracy.