Prompt-Induced Score Variance in Zero-Shot Binary Vision-Language Safety Classification
作者: Charles Weng, Dingwen Li, Alexander Martin
分类: cs.CL, cs.CV
发布日期: 2026-05-01
备注: Preprint. 19 pages, 5 figures
💡 一句话要点
揭示零样本视觉-语言模型安全分类中提示词诱导的分数方差问题,并提出均值集成方法。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 零样本学习 安全分类 提示词工程 模型可靠性
📋 核心要点
- 现有零样本视觉-语言模型安全分类器依赖于单提示词的首个token概率作为决策分数,但该方法对提示词的微小变化非常敏感。
- 论文提出一种无需训练的均值集成方法,通过平均多个语义等价提示词的结果来提高分类的稳定性和可靠性。
- 实验表明,该方法在多个多模态安全基准上显著提高了NLL和ECE,并改善了排序性能,是一种有效的无标签可靠性基线。
📝 摘要(中文)
本文揭示了零样本视觉-语言模型(VLM)安全分类器中,语义等价的提示词重构会导致决策分数(即首个token概率)的不可靠性。即使二元标签被限制在固定的输出位置,等价的提示词也会对同一样本产生显著不同的不安全概率。在多个多模态安全基准和VLM模型族上,跨提示词方差与提示词级别的不一致性和更高的错误率密切相关,使其成为有用的脆弱性诊断工具。一种无需训练的均值集成方法在所有14个数据集-模型评估对上改进了NLL,并在12/14上改进了ECE,优于训练选择的单提示词基线。在AUROC和AUPRC上,排序增益与训练选择的基线一致,并且在完整的15个提示词分布上,AUPRC保持一致,而AUROC有所下降。当标签可用时,在均值之上进行标签校准可提供进一步的增益,表明提示词平均是一种强大的无标签第一阶段,而不是校准的替代方案。我们将此视为零样本VLM首个token安全分数的可靠性压力测试,并建议使用均值聚合的提示词族评估作为标准的无标签可靠性基线。
🔬 方法详解
问题定义:论文旨在解决零样本视觉-语言模型在安全分类任务中,由于提示词的微小变化而导致分类结果不稳定的问题。现有方法依赖于单个提示词,容易受到提示词选择的影响,导致分类结果的方差较大,可靠性不足。
核心思路:论文的核心思路是利用多个语义等价的提示词进行集成,通过平均不同提示词的输出结果来降低对单个提示词的依赖,从而提高分类的稳定性和可靠性。这种方法基于一个假设:虽然单个提示词可能存在偏差,但多个语义等价的提示词的平均结果能够更准确地反映样本的真实安全等级。
技术框架:论文提出的方法主要包含以下几个阶段:1) 收集或生成多个语义等价的提示词;2) 使用每个提示词对输入样本进行零样本分类,得到每个提示词对应的安全分数(即首个token概率);3) 对所有提示词的安全分数进行平均,得到最终的集成安全分数;4) (可选) 使用少量带标签数据对集成安全分数进行校准,进一步提高分类性能。
关键创新:论文的关键创新在于:1) 揭示了零样本VLM安全分类器对提示词的敏感性问题,并提出了量化提示词方差的方法;2) 提出了一种简单有效的均值集成方法,无需训练即可显著提高分类的稳定性和可靠性;3) 将提示词集成与标签校准相结合,进一步提高了分类性能。
关键设计:论文的关键设计包括:1) 提示词的选择:选择多个语义等价但表达方式不同的提示词,以覆盖不同的语言表达风格;2) 集成方法:采用简单的均值集成,易于实现且效果显著;3) 校准方法:可以使用温度缩放、Platt缩放或等渗回归等方法对集成安全分数进行校准,以进一步提高分类性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的均值集成方法在14个数据集-模型评估对上均提高了NLL,并在12/14上提高了ECE,优于训练选择的单提示词基线。在AUROC和AUPRC上,排序增益与训练选择的基线一致。与使用单个提示词相比,该方法能够显著降低提示词诱导的分数方差,提高分类的鲁棒性。
🎯 应用场景
该研究成果可应用于各种需要安全分类的视觉-语言任务中,例如内容审核、恶意软件检测、网络欺诈识别等。通过提高零样本VLM安全分类器的稳定性和可靠性,可以减少误判和漏判,提高系统的安全性和用户体验。该方法无需训练,易于部署,具有广泛的应用前景。
📄 摘要(原文)
Single-prompt first-token probabilities from zero-shot vision-language model (VLM) safety classifiers are treated as decision scores, but we show they are unreliable under semantically equivalent prompt reformulation: even when the binary label is constrained to a fixed output position, equivalent prompts can induce materially different unsafe probabilities for the same sample. Across multimodal safety benchmarks and multiple VLM families, cross-prompt variance is strongly associated with prompt-level disagreement and higher error, making it a useful fragility diagnostic. A training-free mean ensemble improves NLL on all 14 dataset-model evaluation pairs and ECE on 12/14 relative to a train-selected single-prompt baseline, and wins more head-to-head NLL comparisons than labeled temperature scaling, Platt scaling, and isotonic regression applied to the same prompt. Ranking gains are consistent against the train-selected baseline on both AUROC and AUPRC, and against the full 15-prompt distribution remain consistent on AUPRC while softening on AUROC. Labeled calibration on top of the mean provides further gains when labels are available, identifying prompt averaging as a strong label-free first stage rather than a replacement for calibration. We frame this as a reliability stress test for zero-shot VLM first-token safety scores and recommend prompt-family evaluation with mean aggregation as a standard label-free reliability baseline.