Seeing the Image: Prioritizing Visual Correlation by Contrastive Alignment

📄 arXiv: 2405.17871v2 📥 PDF

作者: Xin Xiao, Bohong Wu, Jiacong Wang, Chunyuan Li, Xun Zhou, Haoyuan Guo

分类: cs.CV, cs.AI, cs.CL

发布日期: 2024-05-28 (更新: 2024-11-05)

备注: NeurlPS 2024, Camera ready

🔗 代码/项目: GITHUB


💡 一句话要点

提出对比对齐(CAL)方法,通过视觉相关性区分文本token重要性,优化视觉语言模型。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 跨模态对齐 对比学习 文本token重加权 视觉相关性 自监督学习 图像描述

📋 核心要点

  1. 现有VLM平等对待所有文本token,忽略了它们与图像的相关性差异,导致跨模态对齐效果不佳。
  2. CAL方法通过对比图像输入,利用预测logits差异来评估文本token的视觉相关性,并进行重加权。
  3. 实验表明,CAL在不同VLM模型和数据集上均有提升,且计算开销小,具有高效性。

📝 摘要(中文)

现有的视觉语言模型(VLMs)中的图像-文本模态对齐以自回归的方式平等地对待每个文本token。尽管这种方法简单有效,但它会过度强调与输入图像相关性较低甚至矛盾的文本token,从而导致次优的跨模态对齐。在本文中,我们提倡基于每个文本token的视觉相关性为其分配不同的贡献。具体来说,我们通过对比图像输入,每个文本token的预测logits的差异提供了视觉相关性的有力指导。因此,我们提出对比对齐(CAL),这是一种简单而有效的重加权策略,可以优先训练视觉相关的token。我们的实验结果表明,CAL在各种基准数据集上,始终如一地改进了不同分辨率和模型大小的不同类型的VLM。重要的是,与替代数据缩放策略相比,我们的方法产生的额外计算开销极小,使其非常高效。代码可在https://github.com/foundation-multimodal-models/CAL 获取。

🔬 方法详解

问题定义:现有视觉语言模型在进行图像-文本对齐时,通常采用自回归的方式,平等地处理每一个文本token。这种方式忽略了不同token与图像之间的相关性差异,导致模型在训练过程中,会将过多的注意力放在与图像关联较弱甚至矛盾的token上,从而影响了跨模态对齐的准确性和效率。因此,如何区分不同文本token的重要性,并优先训练与图像更相关的token,是本文要解决的关键问题。

核心思路:本文的核心思路是,通过对比不同的图像输入,观察模型在预测文本token时的logits变化,来判断该token与图像的视觉相关性。如果一个token的logits在不同图像下变化较大,说明它与图像内容密切相关;反之,如果logits变化不大,则说明该token与图像的关联较弱。基于这种视觉相关性的判断,可以对不同的文本token进行重加权,从而优先训练与图像更相关的token。

技术框架:CAL方法的整体框架是在现有的VLM训练流程中加入一个对比对齐模块。该模块首先对输入图像进行微小的扰动,生成对比图像。然后,将原始图像和对比图像分别输入VLM,得到对应的文本token预测logits。接着,计算每个token在两幅图像下的logits差异,作为该token的视觉相关性得分。最后,根据视觉相关性得分,对文本token进行重加权,并用于后续的训练过程。

关键创新:CAL方法最重要的创新点在于,它提出了一种基于对比学习的视觉相关性评估方法。与传统的注意力机制不同,CAL方法不需要额外的监督信息,而是通过自监督的方式,从模型的预测logits中学习文本token的视觉相关性。这种方法更加灵活和高效,可以应用于各种不同的VLM模型。

关键设计:CAL方法的关键设计包括:1) 对比图像的生成方式,可以使用随机噪声、图像裁剪等方法;2) logits差异的计算方式,可以使用KL散度、余弦相似度等方法;3) 重加权策略,可以使用softmax、sigmoid等函数将视觉相关性得分转换为权重;4) 损失函数的设计,可以在原始的交叉熵损失函数的基础上,加入一个正则化项,以防止模型过度关注高相关性的token。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

CAL方法在多个基准数据集上取得了显著的性能提升。例如,在COCO Caption数据集上,CAL方法将CIDEr评分提高了2-3个点。此外,CAL方法在不同模型大小和分辨率下均表现出良好的泛化能力,证明了其有效性和鲁棒性。更重要的是,CAL方法引入的额外计算开销非常小,使其在实际应用中具有很高的效率。

🎯 应用场景

CAL方法可广泛应用于各种视觉语言任务,如图像描述、视觉问答、图像检索等。通过提升VLM的跨模态对齐能力,可以提高这些任务的性能和效率。此外,CAL方法还可以应用于机器人视觉、自动驾驶等领域,帮助机器人更好地理解周围环境,并做出更准确的决策。未来,CAL方法有望成为VLM训练的重要组成部分,推动多模态人工智能的发展。

📄 摘要(原文)

Existing image-text modality alignment in Vision Language Models (VLMs) treats each text token equally in an autoregressive manner. Despite being simple and effective, this method results in sub-optimal cross-modal alignment by over-emphasizing the text tokens that are less correlated with or even contradictory with the input images. In this paper, we advocate for assigning distinct contributions for each text token based on its visual correlation. Specifically, we present by contrasting image inputs, the difference in prediction logits on each text token provides strong guidance of visual correlation. We therefore introduce Contrastive ALignment (CAL), a simple yet effective re-weighting strategy that prioritizes training visually correlated tokens. Our experimental results demonstrate that CAL consistently improves different types of VLMs across different resolutions and model sizes on various benchmark datasets. Importantly, our method incurs minimal additional computational overhead, rendering it highly efficient compared to alternative data scaling strategies. Codes are available at https://github.com/foundation-multimodal-models/CAL.