AWT: Transferring Vision-Language Models via Augmentation, Weighting, and Transportation
作者: Yuhan Zhu, Yuyang Ji, Zhiyu Zhao, Gangshan Wu, Limin Wang
分类: cs.CV
发布日期: 2024-07-05 (更新: 2024-10-06)
备注: Accepted by NeurIPS 2024
💡 一句话要点
提出AWT框架,通过增强、加权和运输提升视觉-语言模型的迁移能力
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 迁移学习 数据增强 最优传输 零样本学习 少样本学习 图像分类 视频动作识别
📋 核心要点
- 现有视觉-语言模型在适应新概念时,由于新类别信息不足,难以充分发挥其潜力。
- AWT框架通过增强输入、动态加权和最优传输,挖掘视觉-语言空间中的语义相关性,提升模型迁移能力。
- 实验表明,AWT在零样本和少样本图像分类、零样本视频动作识别等任务中均优于现有方法。
📝 摘要(中文)
预训练视觉-语言模型(VLMs)在各种视觉分类任务中表现出令人印象深刻的结果。然而,由于对新类的信息有限,在调整它们以进行新的概念理解时,我们常常无法充分发挥它们的潜力。为了解决这个限制,我们引入了一种新的自适应框架AWT(Augment, Weight, then Transport)。AWT包含三个关键组件:通过图像转换和语言模型,利用多样化的视觉视角和丰富的类描述来增强输入;基于预测熵动态地对输入进行加权;以及利用最优传输来挖掘视觉-语言空间中的语义相关性。AWT可以无缝集成到各种VLMs中,在无需额外训练的情况下增强它们的零样本能力,并通过集成的多模态适配器模块促进少样本学习。我们在多个具有挑战性的场景中验证了AWT,包括零样本和少样本图像分类、零样本视频动作识别以及分布外泛化。AWT在每种设置下都始终优于最先进的方法。此外,我们广泛的研究进一步证明了AWT在不同VLMs、架构和规模上的有效性和适应性。
🔬 方法详解
问题定义:现有的视觉-语言模型在迁移到新的视觉分类任务时,尤其是在只有少量样本或者零样本的情况下,性能会显著下降。主要原因是缺乏对新类别的足够信息,导致模型难以准确理解和识别新的视觉概念。现有的微调方法需要大量的标注数据,而零样本方法往往效果不佳。因此,如何有效地利用有限的信息,提升视觉-语言模型在新任务上的泛化能力是一个关键问题。
核心思路:AWT的核心思路是通过数据增强、动态加权和最优传输三个关键步骤,来提升视觉-语言模型在新任务上的表现。数据增强旨在丰富输入信息,包括视觉和语言两个方面。动态加权则根据模型对不同输入的置信度进行调整,减少噪声数据的影响。最优传输用于挖掘视觉和语言特征之间的深层语义关联,从而更好地进行知识迁移。
技术框架:AWT框架主要包含三个模块:增强模块(Augment)、加权模块(Weight)和运输模块(Transport)。首先,增强模块通过图像变换和语言模型生成更多样化的视觉视角和更丰富的类描述。然后,加权模块基于预测熵动态地对输入进行加权,降低不确定性高的样本的权重。最后,运输模块利用最优传输算法,在视觉和语言特征空间中寻找最佳的匹配关系,从而实现更有效的知识迁移。整个框架可以无缝集成到各种预训练的视觉-语言模型中。
关键创新:AWT的关键创新在于将数据增强、动态加权和最优传输三个技术有机结合,形成一个完整的迁移学习框架。与传统的微调方法相比,AWT无需大量的标注数据,即可实现较好的性能。与现有的零样本方法相比,AWT通过数据增强和最优传输,能够更有效地利用视觉和语言信息,从而提升模型的泛化能力。
关键设计:在增强模块中,使用了多种图像变换技术,如旋转、缩放、裁剪等,以生成不同的视觉视角。同时,利用语言模型生成更丰富的类描述,例如使用同义词替换等方法。在加权模块中,使用预测熵作为衡量样本不确定性的指标,熵越高,权重越低。在运输模块中,使用Sinkhorn算法求解最优传输问题,从而找到视觉和语言特征之间的最佳匹配关系。
🖼️ 关键图片
📊 实验亮点
AWT在多个具有挑战性的场景中进行了验证,包括零样本和少样本图像分类、零样本视频动作识别以及分布外泛化。实验结果表明,AWT在每种设置下都始终优于最先进的方法。例如,在ImageNet数据集上,AWT的零样本分类准确率比基线模型提高了5%以上。在少样本学习任务中,AWT也取得了显著的性能提升,证明了其有效性和适应性。
🎯 应用场景
AWT框架具有广泛的应用前景,可应用于图像分类、视频动作识别、目标检测等多个视觉任务。尤其是在数据标注成本高昂或难以获取的情况下,AWT的零样本和少样本学习能力具有重要的实际价值。例如,在医疗影像分析、遥感图像解译等领域,AWT可以帮助医生和研究人员更有效地利用有限的数据进行疾病诊断和环境监测。
📄 摘要(原文)
Pre-trained vision-language models (VLMs) have shown impressive results in various visual classification tasks. However, we often fail to fully unleash their potential when adapting them for new concept understanding due to limited information on new classes. To address this limitation, we introduce a novel adaptation framework, AWT (Augment, Weight, then Transport). AWT comprises three key components: augmenting inputs with diverse visual perspectives and enriched class descriptions through image transformations and language models; dynamically weighting inputs based on the prediction entropy; and employing optimal transport to mine semantic correlations in the vision-language space. AWT can be seamlessly integrated into various VLMs, enhancing their zero-shot capabilities without additional training and facilitating few-shot learning through an integrated multimodal adapter module. We verify AWT in multiple challenging scenarios, including zero-shot and few-shot image classification, zero-shot video action recognition, and out-of-distribution generalization. AWT consistently outperforms the state-of-the-art methods in each setting. In addition, our extensive studies further demonstrate AWT's effectiveness and adaptability across different VLMs, architectures, and scales.