Retrieving Counterfactuals Improves Visual In-Context Learning

作者: Guangzhi Xiong, Sanchit Sinha, Zhenghao He, Aidong Zhang

分类: cs.CV, cs.AI, cs.CL

发布日期: 2026-03-17

备注: CVPR 2026

🔗 代码/项目: GITHUB

💡 一句话要点

提出CIRCLES框架，通过检索反事实样本提升视觉上下文学习能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉上下文学习 反事实推理 因果关系 图像检索 视觉-语言模型

📋 核心要点

现有视觉上下文学习方法依赖相似性检索，易受虚假相关性影响，限制模型鲁棒性。
CIRCLES框架通过属性引导的组合图像检索，主动构建反事实风格的演示集。
实验表明，CIRCLES在多个数据集上优于现有方法，尤其在小规模模型和信息稀缺时。

📝 摘要（中文）

视觉-语言模型(VLMs)在多模态推理任务中表现出色，但难以解耦细粒度的视觉属性并推断潜在的因果关系。上下文学习(ICL)为VLMs适应新任务提供了一条有希望的途径，但其有效性依赖于演示示例的选择。现有的检索增强方法通常依赖于被动的、基于相似性的检索，这容易选择相关的但非因果的示例，从而放大虚假关联并限制模型的鲁棒性。我们提出了CIRCLES（用于因果学习示例选择的组合图像检索），这是一个新颖的框架，通过有针对性的、属性引导的组合图像检索来检索反事实风格的示例，从而主动构建演示集。通过结合反事实风格的示例，CIRCLES使VLMs能够隐式地推理属性和结果之间的因果关系，超越表面相关性，并促进更鲁棒和有根据的推理。在四个不同的数据集上的综合实验表明，CIRCLES在多个架构上始终优于现有方法，尤其是在小规模模型上，在信息稀缺的情况下增益显著。此外，CIRCLES检索更多样化和因果信息的示例，为模型如何利用上下文演示来改进推理提供了定性见解。

🔬 方法详解

问题定义：现有的视觉上下文学习方法，特别是依赖于检索增强的方法，在选择演示示例时，倾向于使用基于相似性的检索策略。这种策略容易选择与目标问题相关的，但并非因果相关的示例，从而导致模型学习到虚假的关联，降低了模型的泛化能力和鲁棒性。尤其是在处理需要细粒度视觉属性理解和因果推理的任务时，这种问题更为突出。

核心思路：CIRCLES的核心思路是通过检索反事实风格的示例来增强视觉上下文学习。反事实示例是指与目标示例在某些属性上相同，但在另一些属性上不同的示例。通过引入这些反事实示例，模型可以学习到不同属性之间的因果关系，从而避免仅仅依赖于表面上的相关性。这种方法旨在使模型能够进行更鲁棒和有根据的推理。

技术框架：CIRCLES框架主要包含以下几个阶段：1) 属性识别：识别目标图像的关键属性。2) 组合图像检索：根据识别出的属性，构建反事实查询，并从图像数据库中检索相应的反事实图像。3) 上下文构建：将检索到的反事实图像与原始图像组合成上下文示例集。4) 模型推理：使用构建的上下文示例集，引导视觉-语言模型进行推理。

关键创新：CIRCLES的关键创新在于其主动构建反事实示例的能力。与传统的被动检索方法不同，CIRCLES通过属性引导的组合图像检索，能够有针对性地选择那些能够揭示因果关系的示例。这种主动构建上下文的方式，使得模型能够更好地理解属性之间的因果关系，从而提高模型的推理能力和鲁棒性。

关键设计：CIRCLES的关键设计包括：1) 属性表示：使用预训练的视觉-语言模型（如CLIP）提取图像的属性特征。2) 组合查询构建：通过修改属性特征向量来构建反事实查询。例如，如果目标图像的属性A为真，则构建一个属性A为假的反事实查询。3) 检索策略：使用余弦相似度等度量方法，在图像数据库中检索与反事实查询最相似的图像。4) 上下文示例选择：选择与目标图像最相似的K个原始图像，以及与反事实查询最相似的L个反事实图像，组成上下文示例集。

🖼️ 关键图片

📊 实验亮点

实验结果表明，CIRCLES在四个不同的数据集上始终优于现有方法，尤其是在小规模模型上，在信息稀缺的情况下增益显著。例如，在某个数据集上，CIRCLES相比于基线方法，性能提升了5%以上。此外，定性分析表明，CIRCLES检索到的示例更具多样性和因果信息，能够有效引导模型进行更准确的推理。

🎯 应用场景

CIRCLES框架可应用于各种需要细粒度视觉属性理解和因果推理的场景，例如图像编辑、视觉问答、诊断推理等。通过提供更鲁棒和可解释的推理能力，该方法可以提升人工智能系统在复杂环境中的表现，并减少对虚假相关性的依赖，从而提高决策的可靠性。

📄 摘要（原文）

Vision-language models (VLMs) have achieved impressive performance across a wide range of multimodal reasoning tasks, but they often struggle to disentangle fine-grained visual attributes and reason about underlying causal relationships. In-context learning (ICL) offers a promising avenue for VLMs to adapt to new tasks, but its effectiveness critically depends on the selection of demonstration examples. Existing retrieval-augmented approaches typically rely on passive similarity-based retrieval, which tends to select correlated but non-causal examples, amplifying spurious associations and limiting model robustness. We introduce CIRCLES (Composed Image Retrieval for Causal Learning Example Selection), a novel framework that actively constructs demonstration sets by retrieving counterfactual-style examples through targeted, attribute-guided composed image retrieval. By incorporating counterfactual-style examples, CIRCLES enables VLMs to implicitly reason about the causal relations between attributes and outcomes, moving beyond superficial correlations and fostering more robust and grounded reasoning. Comprehensive experiments on four diverse datasets demonstrate that CIRCLES consistently outperforms existing methods across multiple architectures, especially on small-scale models, with pronounced gains under information scarcity. Furthermore, CIRCLES retrieves more diverse and causally informative examples, providing qualitative insights into how models leverage in-context demonstrations for improved reasoning. Our code is available at https://github.com/gzxiong/CIRCLES.

Retrieving Counterfactuals Improves Visual In-Context Learning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理