When Negation Is a Geometry Problem in Vision-Language Models

📄 arXiv: 2603.20554 📥 PDF

作者: Fawaz Sammani, Tzoulio Chamiti, Paul Gavrikov, Nikos Deligiannis

分类: cs.CV

发布日期: 2026-04-06


💡 一句话要点

提出基于表征工程的测试时干预方法,提升CLIP模型对文本否定语义的理解能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言模型 否定语义理解 表征工程 测试时干预 多模态学习

📋 核心要点

  1. 现有CLIP模型在处理否定语义时存在不足,影响了其在复杂场景下的应用。
  2. 论文提出一种基于表征工程的测试时干预方法,无需微调即可提升模型对否定的理解。
  3. 实验表明,该方法能够有效提升CLIP模型在否定语义理解方面的性能,并在非常见数据上具有一定的泛化能力。

📝 摘要(中文)

CLIP等联合视觉-语言嵌入模型在理解文本查询中的否定语义时表现不佳,例如无法区分“没有logo的纯蓝色衬衫”中的“没有”。以往工作主要通过数据驱动的方法解决此问题,即在大型合成否定数据集上微调CLIP。然而,这些方法通常使用基于检索的指标进行评估,无法可靠地反映模型是否真正理解了否定。本文指出了此类评估指标的两个关键局限性,并研究了一种基于多模态LLM作为评判器的替代评估框架,该框架通常擅长理解关于图像内容的简单是/否问题,从而对CLIP模型中的否定理解进行公平评估。然后,我们探究CLIP嵌入空间中是否已存在与否定相关的方向。我们发现证据表明存在这样的方向,并表明可以通过测试时干预(通过表征工程)来操纵它,从而引导CLIP朝着具有否定意识的行为发展,而无需任何微调。最后,我们在非常见的图像-文本样本上测试否定理解,以评估分布偏移下的泛化能力。

🔬 方法详解

问题定义:CLIP等视觉-语言模型在理解文本中的否定词时存在困难,例如,模型难以区分“有猫”和“没有猫”的图像。现有的解决方法主要依赖于在包含大量否定样本的数据集上对模型进行微调,但这种方法需要大量标注数据,并且泛化能力可能有限。此外,常用的基于检索的评估指标难以准确衡量模型是否真正理解了否定语义。

核心思路:论文的核心思想是,在CLIP的嵌入空间中,可能已经存在一个与否定语义相关的方向。通过在测试时对图像或文本的嵌入向量进行干预,沿着这个否定方向进行调整,可以使模型更好地理解否定语义,而无需重新训练模型。这种方法类似于在模型的隐空间中进行“手术”,直接改变模型的行为。

技术框架:该方法主要包含以下几个步骤:1) 首先,使用多模态LLM作为评判器,对CLIP模型在否定语义理解方面的能力进行评估,得到一个基准性能。2) 然后,通过分析CLIP的嵌入空间,找到与否定语义相关的方向。具体方法未知,但推测可能使用了某种优化算法或统计方法。3) 在测试时,对于包含否定词的文本查询,首先计算图像和文本的原始嵌入向量,然后沿着找到的否定方向对图像或文本的嵌入向量进行调整。4) 最后,使用调整后的嵌入向量进行图像-文本匹配,并使用多模态LLM评判器评估模型的性能。

关键创新:该方法的主要创新在于,它提出了一种基于表征工程的测试时干预方法,可以在不进行模型微调的情况下,提升CLIP模型对否定语义的理解能力。这种方法避免了对大量标注数据的依赖,并且具有较好的泛化能力。此外,论文还提出了一种基于多模态LLM的评估框架,可以更准确地衡量模型对否定语义的理解程度。

关键设计:论文的关键设计在于如何找到CLIP嵌入空间中与否定语义相关的方向。虽然论文没有详细描述具体的方法,但可以推测可能使用了某种优化算法或统计方法,例如,通过分析包含否定词和不包含否定词的图像-文本对的嵌入向量之间的差异,来找到这个方向。此外,如何确定干预的强度也是一个关键问题,需要仔细调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

论文通过实验证明,提出的测试时干预方法能够有效提升CLIP模型对否定语义的理解能力。具体性能提升数据未知,但论文强调该方法在非常见图像-文本样本上具有一定的泛化能力,表明该方法不仅能够提升模型在常见场景下的性能,还能够使其更好地适应新的环境。

🎯 应用场景

该研究成果可应用于图像检索、视觉问答、图像描述等领域。例如,在图像检索中,用户可以使用包含否定词的查询语句来更精确地搜索图像。在视觉问答中,模型可以更好地理解问题中的否定语义,从而给出更准确的答案。此外,该方法还可以用于提高机器人对环境的理解能力,使其能够更好地执行包含否定指令的任务。

📄 摘要(原文)

Joint Vision-Language Embedding models such as CLIP typically fail at understanding negation in text queries, for example, failing to distinguish "no" in the query: "a plain blue shirt with no logos". Prior work has largely addressed this limitation through data-centric approaches, fine-tuning CLIP on large-scale synthetic negation datasets. However, these efforts are commonly evaluated using retrieval-based metrics that cannot reliably reflect whether negation is actually understood. In this paper, we identify two key limitations of such evaluation metrics and investigate an alternative evaluation framework based on Multimodal LLMs-as-a-judge, which typically excel at understanding simple yes/no questions about image content, providing a fair evaluation of negation understanding in CLIP models. We then ask whether there already exists a direction in the CLIP embedding space associated with negation. We find evidence that such a direction exists, and show that it can be manipulated through test-time intervention via representation engineering to steer CLIP toward negation-aware behavior without any fine-tuning. Finally, we test negation understanding on non-common image-text samples to evaluate generalization under distribution shifts. Code is atthis https URL