PRSM: A Measure to Evaluate CLIP's Robustness Against Paraphrases

📄 arXiv: 2511.11141v1 📥 PDF

作者: Udo Schlegel, Franziska Weeber, Jian Lan, Thomas Seidl

分类: cs.CL, cs.CY, cs.LG

发布日期: 2025-11-14

备注: 8 pages, accpeted as short paper at MMM 2026


💡 一句话要点

提出PRSM指标,评估CLIP模型在释义变换下的鲁棒性,揭示潜在偏见。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: CLIP模型 释义鲁棒性 多模态学习 公平性 社会偏见 评估指标 PRSM

📋 核心要点

  1. CLIP模型在语言变异(尤其是释义)下的鲁棒性不足,可能导致在社会敏感场景中放大偏见。
  2. 提出PRSM指标,通过量化CLIP对释义查询的敏感性,评估其在释义变换下的稳定性。
  3. 实验表明,CLIP的鲁棒性因释义策略而异,且在男性和女性相关查询中存在细微但一致的差异。

📝 摘要(中文)

对比语言-图像预训练(CLIP)是一种广泛使用的多模态模型,它通过大规模训练对齐文本和图像表示。虽然它在零样本和少样本任务上表现出色,但其对语言变异的鲁棒性,特别是释义,仍未得到充分探索。释义鲁棒性对于可靠部署至关重要,尤其是在社会敏感环境中,不一致的表示会放大人口统计偏见。在本文中,我们引入了释义排序稳定性指标(PRSM),这是一种用于量化CLIP对释义查询敏感性的新指标。使用Social Counterfactuals数据集(一个旨在揭示社会和人口统计偏见的基准),我们实证评估了CLIP在释义变异下的稳定性,检查了释义鲁棒性与性别之间的相互作用,并讨论了多模态系统公平和公正部署的影响。我们的分析表明,鲁棒性因释义策略而异,并且在男性和女性相关查询之间观察到细微但一致的差异。

🔬 方法详解

问题定义:CLIP模型在处理文本释义时,其图像检索结果的一致性会受到影响,尤其是在涉及社会属性(如性别)的查询中,这种不一致性可能导致或加剧偏见。现有的评估方法缺乏针对释义鲁棒性的专门指标,难以有效衡量和改善CLIP在这方面的性能。

核心思路:论文的核心在于提出一种新的评估指标PRSM,用于量化CLIP模型在面对文本释义时的排序稳定性。如果CLIP对同一语义的不同表达方式(即释义)返回相似的图像排序结果,则认为其具有较好的释义鲁棒性。PRSM通过比较原始查询和其释义查询的图像排序差异来衡量这种稳定性。

技术框架:PRSM的计算流程如下:1) 对原始文本查询生成多个释义版本;2) 使用CLIP模型对原始查询和每个释义查询进行图像检索,得到对应的图像排序列表;3) 计算原始查询的排序列表与每个释义查询的排序列表之间的相似度(例如,使用Kendall's Tau相关系数);4) 将所有释义查询的相似度取平均,得到最终的PRSM值。PRSM值越高,表示CLIP的释义鲁棒性越好。

关键创新:PRSM指标是专门为评估CLIP等文本-图像模型在释义变换下的鲁棒性而设计的,弥补了现有评估方法的不足。它提供了一种量化的方式来衡量模型对语言变异的敏感程度,并可以用于识别和缓解潜在的偏见。与传统的准确率或召回率等指标不同,PRSM关注的是排序的稳定性,更能反映模型在实际应用中的可靠性。

关键设计:PRSM的关键在于选择合适的释义生成方法和排序相似度度量方式。论文使用了Social Counterfactuals数据集,该数据集包含了针对社会属性的释义查询。排序相似度可以使用多种指标,例如Kendall's Tau相关系数、Spearman's Rank Correlation等。论文中具体使用的指标需要在实验部分进一步确认。此外,如何选择具有代表性的释义查询也是一个重要的设计考虑。

📊 实验亮点

实验结果表明,CLIP模型在释义变换下的鲁棒性存在差异,且与性别相关。具体来说,某些释义策略更容易导致模型对男性和女性相关查询产生不同的排序结果,这表明模型可能存在潜在的性别偏见。PRSM指标能够有效捕捉到这些差异,为进一步研究和缓解偏见提供了工具。

🎯 应用场景

该研究成果可应用于提升多模态模型在社会敏感场景中的公平性和可靠性。例如,在招聘、信贷评估等领域,避免因语言表达方式的细微差异而产生歧视性结果。此外,PRSM指标可用于指导模型训练,提高模型对语言变异的鲁棒性,从而提升用户体验。

📄 摘要(原文)

Contrastive Language-Image Pre-training (CLIP) is a widely used multimodal model that aligns text and image representations through large-scale training. While it performs strongly on zero-shot and few-shot tasks, its robustness to linguistic variation, particularly paraphrasing, remains underexplored. Paraphrase robustness is essential for reliable deployment, especially in socially sensitive contexts where inconsistent representations can amplify demographic biases. In this paper, we introduce the Paraphrase Ranking Stability Metric (PRSM), a novel measure for quantifying CLIP's sensitivity to paraphrased queries. Using the Social Counterfactuals dataset, a benchmark designed to reveal social and demographic biases, we empirically assess CLIP's stability under paraphrastic variation, examine the interaction between paraphrase robustness and gender, and discuss implications for fairness and equitable deployment of multimodal systems. Our analysis reveals that robustness varies across paraphrasing strategies, with subtle yet consistent differences observed between male- and female-associated queries.