Density-Aware Translation of Spurious Correlations in Zero-Shot VLMs

📄 arXiv: 2606.01710v1 📥 PDF

作者: Afsaneh Hasanebrahimi, Hanxun Huang, Christopher Leckie, Sarah Erfani

分类: cs.CV, cs.LG

发布日期: 2026-06-01

备注: ICML 2026


💡 一句话要点

提出密度感知转换(DAT)方法,提升零样本VLM在虚假相关性下的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 视觉语言模型 虚假相关性 密度估计 多模态学习

📋 核心要点

  1. 现有零样本VLM易受图像中虚假相关性的影响,导致模型过度依赖上下文线索而非语义内容。
  2. 提出密度感知转换(DAT)方法,通过局部几何密度来调整图像-文本相似度,抑制虚假相关性的影响。
  3. 实验表明,DAT在多个基准数据集上提高了最差组和平均准确率,验证了其有效性。

📝 摘要(中文)

视觉-语言模型(VLMs),如CLIP,实现了强大的零样本分类能力。然而,它们的预测仍然对虚假相关性敏感,其中上下文线索会主导语义内容。先前的解决方案通常依赖于微调或提示工程,这要么削弱了预训练模型的优势,要么容易产生幻觉。在这项工作中,我们提出了密度感知转换(DAT),它使用从群体参考集中导出的局部几何密度项来细化图像-文本相似度得分。我们的方法受到CLIP嵌入表现出模态差距并位于特征空间中的各向异性壳上的现象的启发:常见模式聚集在均值附近,而罕见模式则被推到外面。这种几何结构产生了不均匀的对齐,其中虚假相关性被放大,而语义上有意义但罕见的线索被边缘化。为了解决这个问题,我们采用了一种相对度量,根据嵌入密度重新缩放相似度,抑制稀疏区域中过度自信的分数,同时保留密集、语义一致的匹配。在基准数据集上的实验结果表明,最差组和平均准确率均得到了持续的提高,突出了密度感知转换作为一种简单有效的校准机制,可用于使用多模态模型进行可靠的零样本分类。

🔬 方法详解

问题定义:零样本视觉-语言模型(VLMs)在分类任务中表现出色,但容易受到虚假相关性的影响。这意味着模型可能会根据图像中的上下文线索(例如背景、颜色等)进行预测,而不是基于图像的语义内容。现有的微调或提示工程方法要么破坏了预训练模型的泛化能力,要么容易产生幻觉,无法有效解决这个问题。

核心思路:论文的核心思路是利用CLIP特征空间中的几何特性,即常见模式聚集在均值附近,而罕见模式则被推到外面。这种分布导致模型对常见但可能具有虚假相关性的模式过于自信。因此,通过引入密度感知的相似度调整,可以抑制稀疏区域中过度自信的预测,同时保留密集区域中语义一致的匹配。

技术框架:DAT方法主要包含以下几个步骤:1)使用CLIP等VLM提取图像和文本的嵌入向量。2)构建群体参考集,用于估计局部几何密度。3)计算图像和文本嵌入向量之间的原始相似度得分。4)使用密度感知的权重对原始相似度得分进行调整,得到最终的相似度得分。5)根据调整后的相似度得分进行零样本分类。

关键创新:该论文的关键创新在于提出了密度感知的相似度调整方法。与现有方法不同,DAT不依赖于微调或提示工程,而是直接在特征空间中对相似度得分进行校准。这种方法能够有效地抑制虚假相关性的影响,提高模型的鲁棒性。

关键设计:DAT的关键设计包括:1)局部几何密度的计算方式,论文使用群体参考集来估计每个嵌入向量的局部密度。2)相似度得分的调整策略,论文使用相对密度来重新缩放相似度得分,抑制稀疏区域中过度自信的分数。具体的密度计算和相似度调整公式在论文中有详细描述。

📊 实验亮点

实验结果表明,DAT方法在多个基准数据集上显著提高了零样本分类的准确率。例如,在Waterbirds数据集上,DAT方法将最差组准确率提高了5%以上。此外,DAT方法还提高了平均准确率,表明其在抑制虚假相关性的同时,没有损害模型的整体性能。与现有的微调和提示工程方法相比,DAT方法具有更好的泛化能力和鲁棒性。

🎯 应用场景

该研究成果可应用于各种需要鲁棒零样本分类的场景,例如自动驾驶、医学图像分析、安全监控等。通过提高模型对虚假相关性的抵抗能力,可以减少误判和漏判,提高系统的可靠性和安全性。此外,该方法还可以推广到其他多模态学习任务中,例如图像描述、视频理解等。

📄 摘要(原文)

Vision-Language models (VLMs), such as CLIP, achieve powerful zero-shot classification. However, their predictions remain sensitive to spurious correlations, where contextual cues dominate over semantic content. Earlier solutions typically rely on fine-tuning or prompt engineering, which either undermine the advantages of pre-trained models or are prone to hallucination. In this work, we propose Density-Aware Translation (DAT) that refines image-text similarity scores using a local geometric density term derived from group reference sets. Our approach is motivated by the phenomenon that CLIP embeddings exhibit a modality gap and lie on an anisotropic shell in the feature space: common patterns cluster near the mean, while rare patterns are pushed outward. This geometry creates uneven alignment, where spurious correlations are amplified while semantically meaningful but rare cues are marginalised. To address this, we employ a relative measure to rescale similarities based on embedding density, suppressing overconfident scores in diffuse regions while preserving dense, semantically consistent matches. Experimental results on benchmark datasets demonstrate consistent improvements in worst-group and average accuracy, highlighting density-aware translation as a simple and effective calibration mechanism for reliable zero-shot classification using multimodal models.