Randomized Smoothing Meets Vision-Language Models
作者: Emmanouil Seferis, Changshun Wu, Stefanos Kollias, Saddek Bensalem, Chih-Hong Cheng
分类: cs.LG
发布日期: 2025-09-19
备注: EMNLP'25 full version, including appendix (proofs, additional experiments)
💡 一句话要点
针对视觉-语言模型,提出基于随机平滑的鲁棒性验证方法,防御对抗攻击。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 随机平滑 视觉-语言模型 鲁棒性验证 对抗攻击 生成模型
📋 核心要点
- 现有随机平滑方法主要应用于分类任务,在视觉-语言生成模型上的应用面临输出为序列而非标签的挑战。
- 论文将生成模型的输出与oracle分类任务关联,通过对生成结果进行分类,使随机平滑方法适用于视觉-语言模型。
- 理论分析表明,在保证oracle分类器错误率的前提下,样本数量与鲁棒性半径存在关联,并验证了该方法在防御对抗攻击上的有效性。
📝 摘要(中文)
随机平滑(RS)是确保机器学习模型正确性的重要技术之一,它可以解析地推导出逐点鲁棒性证书。虽然RS在分类问题中得到了很好的理解,但它在生成模型中的应用尚不明确,因为它们的输出是序列而不是标签。本文通过将生成模型的输出与一个oracle分类任务联系起来,解决了这个问题,并表明RS仍然可以启用:最终响应可以被分类为离散动作(例如,VLA中的服务机器人命令),有害与无害(VLM中的内容审核或毒性检测),甚至可以将oracle应用于将答案聚类成语义等价的答案。在oracle分类器比较的错误率有界的前提下,我们开发了将样本数量与相应鲁棒性半径相关联的理论。我们进一步推导出了改进的缩放定律,从分析上将认证半径和准确性与样本数量联系起来,表明即使在较弱的假设下,样本数量减少2到3个数量级且损失最小的早期结果仍然有效。总之,这些进展使得最先进的VLM的鲁棒性认证既明确又在计算上可行,这已通过最近的越狱式对抗攻击得到了验证。
🔬 方法详解
问题定义:现有的随机平滑方法主要应用于分类任务,对于视觉-语言模型(VLMs)这类生成模型,由于其输出是序列而非离散标签,因此无法直接应用。此外,针对VLMs的对抗攻击(例如“越狱”攻击)日益增多,如何保证VLMs的鲁棒性成为一个重要问题。
核心思路:论文的核心思路是将生成模型的输出转化为一个分类问题,从而将随机平滑方法应用于VLMs。具体来说,通过引入一个oracle分类器,将生成模型的输出进行分类,例如判断输出是否“有害”。这样,就可以利用随机平滑方法来保证分类结果的鲁棒性。
技术框架:整体框架包含以下几个主要步骤:1) 对输入进行随机扰动;2) 使用VLM生成输出;3) 使用oracle分类器对输出进行分类;4) 基于随机平滑理论,计算鲁棒性半径。关键模块包括VLM模型、oracle分类器和鲁棒性半径计算模块。
关键创新:论文的关键创新在于将随机平滑方法扩展到生成模型,并提出了基于oracle分类器的鲁棒性验证方法。与传统的随机平滑方法不同,该方法不需要直接对生成模型的输出进行分类,而是通过oracle分类器将生成模型的输出转化为一个分类问题。
关键设计:论文的关键设计包括:1) oracle分类器的选择:oracle分类器需要能够准确地判断生成模型的输出是否满足某种条件(例如,是否“有害”);2) 随机扰动的选择:随机扰动的选择需要保证在扰动后的输入仍然能够被VLM模型处理;3) 鲁棒性半径的计算:论文推导了鲁棒性半径与样本数量之间的关系,并提出了改进的缩放定律。
📊 实验亮点
实验结果表明,该方法能够有效地防御针对视觉-语言模型的对抗攻击,并且在保证一定准确率的前提下,所需的样本数量比传统方法减少2到3个数量级。这使得对大型视觉-语言模型进行鲁棒性验证成为可能。
🎯 应用场景
该研究成果可应用于多种场景,例如:1) 提升视觉-语言模型的安全性,防御对抗攻击;2) 内容审核,自动检测有害或不当内容;3) 服务机器人,确保机器人执行安全可靠的指令。该方法有助于提高人工智能系统的可靠性和安全性,具有重要的实际价值和广泛的应用前景。
📄 摘要(原文)
Randomized smoothing (RS) is one of the prominent techniques to ensure the correctness of machine learning models, where point-wise robustness certificates can be derived analytically. While RS is well understood for classification, its application to generative models is unclear, since their outputs are sequences rather than labels. We resolve this by connecting generative outputs to an oracle classification task and showing that RS can still be enabled: the final response can be classified as a discrete action (e.g., service-robot commands in VLAs), as harmful vs. harmless (content moderation or toxicity detection in VLMs), or even applying oracles to cluster answers into semantically equivalent ones. Provided that the error rate for the oracle classifier comparison is bounded, we develop the theory that associates the number of samples with the corresponding robustness radius. We further derive improved scaling laws analytically relating the certified radius and accuracy to the number of samples, showing that the earlier result of 2 to 3 orders of magnitude fewer samples sufficing with minimal loss remains valid even under weaker assumptions. Together, these advances make robustness certification both well-defined and computationally feasible for state-of-the-art VLMs, as validated against recent jailbreak-style adversarial attacks.