Representation-Level Counterfactual Calibration for Debiased Zero-Shot Recognition

📄 arXiv: 2510.26466v2 📥 PDF

作者: Pei Peng, MingKun Xie, Hang Hao, Tong Jin, ShengJun Huang

分类: cs.CV, cs.LG

发布日期: 2025-10-30 (更新: 2025-11-03)


💡 一句话要点

提出表征级反事实校准方法,解决零样本识别中的上下文偏差问题。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 零样本学习 因果推断 反事实推理 上下文偏差 视觉-语言模型

📋 核心要点

  1. 视觉-语言模型易受对象-上下文捷径的影响,导致零样本识别在不同场景下表现不佳。
  2. 通过在表征空间中合成反事实样本,估计对象在不同上下文下的预测结果,从而减轻上下文偏差。
  3. 该方法无需重新训练或提示工程,在多个上下文敏感基准上取得了显著的性能提升。

📝 摘要(中文)

视觉-语言模型中的对象-上下文捷径是一个长期存在的挑战,当测试场景与熟悉的训练共现不同时,会削弱零样本的可靠性。本文将此问题重新定义为因果推断问题,并提出:如果对象出现在不同的环境中,预测结果会保持不变吗?为了在推理时回答这个问题,我们在CLIP的表征空间中估计对象和背景的期望,并通过将对象特征与来自外部数据集、批邻居或文本描述的各种替代上下文重新组合来合成反事实嵌入。通过估计总直接效应并模拟干预,我们进一步减去仅背景激活,保留有益的对象-上下文交互,同时减轻幻觉分数。无需重新训练或提示设计,我们的方法显著提高了上下文敏感基准上的最差组和平均准确率,从而建立了新的零样本技术水平。除了性能之外,我们的框架还提供了一种轻量级的表征级反事实方法,为去偏和可靠的多模态推理提供了一种实用的因果途径。

🔬 方法详解

问题定义:零样本识别任务中,视觉-语言模型容易受到训练数据中对象与上下文的共现关系的影响,导致模型在测试时如果遇到新的上下文,性能会显著下降。现有方法往往依赖于数据增强或prompt工程,但泛化性有限,且需要额外的训练或调整。

核心思路:将上下文偏差问题视为一个因果推断问题,即如果对象出现在不同的上下文中,模型的预测结果是否会发生变化。通过构建反事实样本,模拟对象在不同上下文中的表征,从而评估和消除上下文偏差的影响。

技术框架:该方法基于CLIP模型,主要包含以下几个阶段:1) 对象和背景表征提取:利用CLIP模型提取图像中对象和背景的表征。2) 反事实样本合成:通过将对象表征与来自外部数据集、批邻居或文本描述的替代上下文表征进行组合,生成反事实样本。3) 总直接效应估计:估计对象在不同上下文下的总直接效应,即对象本身对预测结果的影响。4) 背景激活抑制:通过减去仅背景激活,抑制背景对预测结果的干扰。

关键创新:该方法的核心创新在于将因果推断的思想引入到零样本识别中,通过构建反事实样本来评估和消除上下文偏差。与现有方法相比,该方法无需重新训练或prompt工程,可以直接应用于预训练的CLIP模型,具有更好的泛化性和可解释性。

关键设计:1) 上下文表征的来源:论文使用了三种不同的上下文表征来源,包括外部数据集、批邻居和文本描述,以保证上下文的多样性。2) 总直接效应的估计方法:论文采用了一种基于干预的估计方法,通过模拟干预来估计对象对预测结果的直接影响。3) 背景激活抑制的策略:论文通过减去仅背景激活来抑制背景对预测结果的干扰,从而提高模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该方法在多个上下文敏感的零样本识别基准上取得了显著的性能提升,包括大幅提高了最差组的准确率,表明该方法能够有效缓解上下文偏差问题。实验结果表明,该方法在无需重新训练或prompt工程的情况下,超越了现有的零样本识别方法,达到了新的技术水平。

🎯 应用场景

该研究成果可应用于各种需要鲁棒零样本识别的场景,例如自动驾驶、机器人导航、图像搜索等。通过消除上下文偏差,可以提高模型在复杂和变化环境中的可靠性,降低误判风险。此外,该方法提供的因果推理框架也为多模态学习的去偏研究提供了新的思路。

📄 摘要(原文)

Object-context shortcuts remain a persistent challenge in vision-language models, undermining zero-shot reliability when test-time scenes differ from familiar training co-occurrences. We recast this issue as a causal inference problem and ask: Would the prediction remain if the object appeared in a different environment? To answer this at inference time, we estimate object and background expectations within CLIP's representation space, and synthesize counterfactual embeddings by recombining object features with diverse alternative contexts sampled from external datasets, batch neighbors, or text-derived descriptions. By estimating the Total Direct Effect and simulating intervention, we further subtract background-only activation, preserving beneficial object-context interactions while mitigating hallucinated scores. Without retraining or prompt design, our method substantially improves both worst-group and average accuracy on context-sensitive benchmarks, establishing a new zero-shot state of the art. Beyond performance, our framework provides a lightweight representation-level counterfactual approach, offering a practical causal avenue for debiased and reliable multimodal reasoning.