Representation-Level Counterfactual Calibration for Debiased Zero-Shot Recognition
作者: Pei Peng, MingKun Xie, Hang Hao, Tong Jin, ShengJun Huang
分类: cs.CV, cs.LG
发布日期: 2025-10-30 (更新: 2025-11-03)
💡 一句话要点
提出表征级反事实校准方法,解决零样本识别中的上下文偏差问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 零样本学习 反事实推理 因果推断 上下文偏差 视觉-语言模型
📋 核心要点
- 视觉-语言模型易受对象-上下文捷径的影响,导致零样本识别在不同场景下表现不佳。
- 通过在CLIP表征空间中合成反事实嵌入,模拟对象在不同上下文中的表现,从而减轻上下文偏差。
- 该方法无需重新训练或提示设计,在上下文敏感基准上显著提升了零样本识别的准确率。
📝 摘要(中文)
视觉-语言模型中的对象-上下文捷径是一个持续存在的挑战,当测试场景与熟悉的训练共现不同时,会损害零样本的可靠性。本文将此问题重新定义为因果推断问题,并提出:如果对象出现在不同的环境中,预测结果是否仍然成立?为了在推理时回答这个问题,本文估计CLIP表征空间中的对象和背景期望,并通过将对象特征与来自外部数据集、批邻居或文本描述的多样化替代上下文重新组合来合成反事实嵌入。通过估计总直接效应并模拟干预,进一步减去仅背景激活,保留有益的对象-上下文交互,同时减轻幻觉分数。无需重新训练或提示设计,本文的方法显著提高了上下文敏感基准上的最差组和平均准确率,建立了新的零样本技术水平。除了性能之外,本文的框架还提供了一种轻量级的表征级反事实方法,为去偏和可靠的多模态推理提供了一种实用的因果途径。
🔬 方法详解
问题定义:现有的视觉-语言模型在零样本识别中,容易受到训练数据中对象与上下文之间虚假相关性的影响,即“对象-上下文捷径”。当测试场景的上下文与训练数据不同时,模型会错误地将上下文信息作为预测的关键依据,导致泛化能力下降。现有方法通常需要重新训练模型或进行复杂的提示工程,成本较高。
核心思路:本文的核心思路是将零样本识别中的上下文偏差问题视为一个因果推断问题。通过反事实推理,模拟如果对象出现在不同的上下文中,模型应该如何预测。具体来说,通过在CLIP的表征空间中,将对象的视觉特征与不同的背景上下文特征进行组合,生成反事实样本,从而消除模型对原始上下文的依赖。
技术框架:该方法主要包含以下几个阶段:1) 表征提取:使用CLIP模型提取图像中对象和背景的视觉表征。2) 上下文采样:从外部数据集、批邻居或文本描述中采样不同的背景上下文表征。3) 反事实合成:将对象表征与采样的背景上下文表征进行组合,生成反事实嵌入。4) 因果干预:通过估计总直接效应(Total Direct Effect)并模拟干预,减去仅背景激活,保留有益的对象-上下文交互。5) 预测:使用修正后的表征进行零样本预测。
关键创新:该方法最重要的创新点在于提出了一个轻量级的表征级反事实校准框架,可以在不重新训练模型或进行提示设计的情况下,有效地消除零样本识别中的上下文偏差。与现有方法相比,该方法更加高效和灵活,可以直接应用于预训练的视觉-语言模型。
关键设计:在反事实合成阶段,使用了不同的上下文采样策略,包括从外部数据集、批邻居和文本描述中采样。在因果干预阶段,通过估计总直接效应来衡量对象特征对预测结果的直接影响,并减去仅背景激活,从而保留有益的对象-上下文交互。具体来说,总直接效应的计算公式为:TDE = E[Y(X=x', Z=z) - Y(X=x, Z=z)],其中X表示对象特征,Z表示背景特征,Y表示预测结果,x'表示干预后的对象特征,x表示原始对象特征,z表示原始背景特征。
📊 实验亮点
该方法在多个上下文敏感的零样本识别基准上取得了显著的性能提升,包括在Worst-Group Accuracy和Average Accuracy上均超越了现有方法,建立了新的零样本技术水平。实验结果表明,该方法能够有效地消除上下文偏差,提高模型的泛化能力,并且无需重新训练或提示设计,具有很高的实用价值。
🎯 应用场景
该研究成果可广泛应用于零样本图像识别、图像检索、视觉问答等领域,尤其是在需要模型具备鲁棒性和泛化能力的场景下。例如,在自动驾驶领域,模型需要识别各种复杂环境下的交通标志和行人,该方法可以提高模型在不同光照、天气条件下的识别准确率。此外,该方法还可以应用于医疗图像分析、遥感图像解译等领域。
📄 摘要(原文)
Object-context shortcuts remain a persistent challenge in vision-language models, undermining zero-shot reliability when test-time scenes differ from familiar training co-occurrences. We recast this issue as a causal inference problem and ask: Would the prediction remain if the object appeared in a different environment? To answer this at inference time, we estimate object and background expectations within CLIP's representation space, and synthesize counterfactual embeddings by recombining object features with diverse alternative contexts sampled from external datasets, batch neighbors, or text-derived descriptions. By estimating the Total Direct Effect and simulating intervention, we further subtract background-only activation, preserving beneficial object-context interactions while mitigating hallucinated scores. Without retraining or prompt design, our method substantially improves both worst-group and average accuracy on context-sensitive benchmarks, establishing a new zero-shot state of the art. Beyond performance, our framework provides a lightweight representation-level counterfactual approach, offering a practical causal avenue for debiased and reliable multimodal reasoning.