BiPrompt: Bilateral Prompt Optimization for Visual and Textual Debiasing in Vision-Language Models
作者: Sunny Gupta, Shounak Das, Amit Sethi
分类: cs.CV, cs.AI, cs.LG
发布日期: 2026-01-05
备注: Accepted at the AAAI 2026 Workshop AIR-FM, Assessing and Improving Reliability of Foundation Models in the Real World
💡 一句话要点
BiPrompt:双边Prompt优化,用于视觉-语言模型中的视觉和文本去偏。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 去偏 Prompt优化 因果推理 测试时自适应
📋 核心要点
- 现有视觉-语言模型易受视觉和文本模态中虚假相关性的影响,导致泛化能力下降。
- BiPrompt通过双边Prompt优化,同时在视觉和文本模态中减轻非因果特征依赖,提升模型鲁棒性。
- 实验表明,BiPrompt在真实和合成偏差基准上,平均精度和最差组精度均优于现有方法。
📝 摘要(中文)
CLIP等视觉-语言基础模型展现了出色的零样本泛化能力,但仍然容易受到视觉和文本模态中虚假相关性的影响。现有的去偏方法通常只关注单一模态(视觉或文本),导致鲁棒性不足,并且在分布偏移下适应性不稳定。我们提出了一个双边Prompt优化框架(BiPrompt),在测试时自适应期间同时缓解两种模态中的非因果特征依赖。在视觉方面,它采用结构化的注意力引导擦除来抑制背景激活,并强制因果区域和虚假区域之间的正交预测一致性。在文本方面,它引入了平衡Prompt归一化,这是一种可学习的重新中心化机制,可以将类嵌入对齐到各向同性的语义空间。这些模块共同最小化了虚假线索和预测之间的条件互信息,引导模型进行因果、领域不变的推理,而无需重新训练或领域监督。在真实和合成偏差基准上的大量评估表明,与先前的测试时去偏方法相比,平均精度和最差组精度均得到了持续提高,从而为可信赖且具有因果关系的视觉-语言自适应建立了一条轻量级但有效的途径。
🔬 方法详解
问题定义:视觉-语言模型(如CLIP)在零样本学习中表现出色,但容易受到数据集中存在的偏差影响,即模型会学习到虚假的相关性(spurious correlations),而非真正的因果关系。现有的去偏方法通常只关注视觉或文本模态中的单一偏差,无法全面解决问题,且在面对分布偏移时表现不稳定。
核心思路:BiPrompt的核心思想是通过在视觉和文本两个模态上同时进行Prompt优化,来减少模型对虚假相关性的依赖,从而提高模型的鲁棒性和泛化能力。该方法旨在最小化虚假线索和预测之间的条件互信息,引导模型关注因果特征。
技术框架:BiPrompt包含两个主要模块:视觉侧的注意力引导擦除(Attention-guided Erasure)和文本侧的平衡Prompt归一化(Balanced Prompt Normalization)。视觉侧模块通过抑制背景激活和强制因果/虚假区域预测一致性来减少视觉偏差。文本侧模块通过重新中心化类嵌入,将它们对齐到各向同性的语义空间,从而减少文本偏差。这两个模块共同作用,实现双边去偏。
关键创新:BiPrompt的关键创新在于其双边Prompt优化策略,能够同时处理视觉和文本模态中的偏差。与以往只关注单一模态的去偏方法相比,BiPrompt更加全面和有效。此外,注意力引导擦除和平衡Prompt归一化是两个新颖的技术模块,分别针对视觉和文本偏差进行了优化。
关键设计:在视觉侧,注意力引导擦除模块利用注意力机制来识别图像中的重要区域,并有选择地擦除背景激活,从而减少模型对背景偏差的依赖。正交预测一致性通过损失函数来约束,鼓励模型对因果和虚假区域做出一致的预测。在文本侧,平衡Prompt归一化模块通过学习一个重新中心化向量,将类嵌入移动到各向同性的语义空间,从而减少文本偏差。具体的损失函数和网络结构细节在论文中有详细描述(未知)。
🖼️ 关键图片
📊 实验亮点
BiPrompt在多个真实和合成偏差基准上进行了评估,结果表明,与现有的测试时去偏方法相比,BiPrompt在平均精度和最差组精度上均取得了显著提升。具体的性能数据和提升幅度在论文中有详细展示(未知),证明了BiPrompt在视觉-语言去偏方面的有效性。
🎯 应用场景
BiPrompt可应用于各种视觉-语言任务,例如图像分类、图像检索和视觉问答等。该研究有助于提高视觉-语言模型在实际应用中的可靠性和公平性,尤其是在数据存在偏差的情况下。未来,该方法可以扩展到其他多模态任务和模型,并进一步探索更有效的去偏策略。
📄 摘要(原文)
Vision language foundation models such as CLIP exhibit impressive zero-shot generalization yet remain vulnerable to spurious correlations across visual and textual modalities. Existing debiasing approaches often address a single modality either visual or textual leading to partial robustness and unstable adaptation under distribution shifts. We propose a bilateral prompt optimization framework (BiPrompt) that simultaneously mitigates non-causal feature reliance in both modalities during test-time adaptation. On the visual side, it employs structured attention-guided erasure to suppress background activations and enforce orthogonal prediction consistency between causal and spurious regions. On the textual side, it introduces balanced prompt normalization, a learnable re-centering mechanism that aligns class embeddings toward an isotropic semantic space. Together, these modules jointly minimize conditional mutual information between spurious cues and predictions, steering the model toward causal, domain invariant reasoning without retraining or domain supervision. Extensive evaluations on real-world and synthetic bias benchmarks demonstrate consistent improvements in both average and worst-group accuracies over prior test-time debiasing methods, establishing a lightweight yet effective path toward trustworthy and causally grounded vision-language adaptation.