Randomized Smoothing Meets Vision-Language Models
作者: Emmanouil Seferis, Changshun Wu, Stefanos Kollias, Saddek Bensalem, Chih-Hong Cheng
分类: cs.LG
发布日期: 2025-09-19
备注: EMNLP'25 full version, including appendix (proofs, additional experiments)
💡 一句话要点
针对视觉-语言模型,提出基于随机平滑的鲁棒性验证方法,防御对抗攻击。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 随机平滑 视觉-语言模型 鲁棒性验证 对抗攻击 生成模型
📋 核心要点
- 现有随机平滑方法主要应用于分类模型,在视觉-语言生成模型上的应用面临输出为序列而非标签的挑战。
- 论文将生成模型的输出与oracle分类任务关联,通过对最终响应进行分类,使随机平滑能够应用于视觉-语言模型。
- 理论分析表明,在较弱的假设下,使用更少的样本即可实现鲁棒性认证,并在对抗攻击下验证了方法的有效性。
📝 摘要(中文)
随机平滑(RS)是确保机器学习模型正确性的重要技术之一,它可以解析地推导出逐点鲁棒性证书。虽然RS在分类问题上已得到充分理解,但其在生成模型中的应用尚不明确,因为生成模型的输出是序列而不是标签。本文通过将生成模型的输出与一个oracle分类任务联系起来,解决了这个问题,并表明RS仍然可以启用:最终响应可以被分类为离散动作(例如,VLA中的服务机器人命令),有害或无害(VLM中的内容审核或毒性检测),甚至可以将oracle应用于将答案聚类为语义等价的答案。在oracle分类器比较的错误率有界的前提下,我们开发了将样本数量与相应鲁棒性半径相关联的理论。我们进一步推导出了改进的缩放定律,该定律在分析上将认证半径和准确性与样本数量联系起来,表明即使在较弱的假设下,样本数量减少2到3个数量级且损失最小的早期结果仍然有效。总而言之,这些进展使得针对最先进的VLM的鲁棒性认证既明确定义又在计算上可行,并已针对最近的越狱式对抗攻击进行了验证。
🔬 方法详解
问题定义:论文旨在解决视觉-语言模型(VLM)的鲁棒性问题,特别是针对对抗攻击的防御。现有的随机平滑方法主要集中在分类任务上,而VLM的输出是序列,难以直接应用。此外,如何有效地验证VLM的鲁棒性,并降低验证所需的计算成本,也是一个挑战。
核心思路:论文的核心思路是将VLM的生成输出转化为一个分类问题,通过引入一个oracle分类器来判断输出的性质(例如,有害/无害,正确/错误)。这样,就可以将随机平滑方法应用于VLM,并利用oracle分类器的错误率来推导鲁棒性证书。
技术框架:整体框架包括以下几个步骤:1) 对VLM的输入进行随机扰动;2) 使用VLM生成多个输出序列;3) 使用oracle分类器对每个输出序列进行分类;4) 基于oracle分类器的结果,计算鲁棒性半径,并验证模型在扰动范围内的鲁棒性。
关键创新:论文的关键创新在于将随机平滑方法扩展到生成模型,并提出了一种基于oracle分类器的鲁棒性验证方法。这种方法不需要直接对生成序列进行比较,而是通过分类的方式来判断其性质,从而简化了鲁棒性验证的过程。此外,论文还推导出了改进的缩放定律,降低了鲁棒性验证所需的样本数量。
关键设计:论文的关键设计包括:1) oracle分类器的选择,需要根据具体的应用场景选择合适的分类器;2) 随机扰动的选择,需要根据VLM的输入类型选择合适的扰动方式;3) 鲁棒性半径的计算,需要基于oracle分类器的错误率和样本数量进行计算;4) 改进的缩放定律,用于降低鲁棒性验证所需的样本数量。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够有效地验证VLM的鲁棒性,并防御越狱式对抗攻击。通过改进的缩放定律,可以使用更少的样本实现鲁棒性认证,显著降低了计算成本。实验还验证了该方法在不同VLM上的有效性,表明其具有较强的通用性。
🎯 应用场景
该研究成果可应用于多种视觉-语言模型相关的任务,例如服务机器人命令的安全性验证、内容审核和毒性检测等。通过提供鲁棒性保证,可以提高VLM在实际应用中的可靠性和安全性,降低因对抗攻击造成的风险。未来,该方法可以进一步扩展到其他类型的生成模型,并应用于更广泛的领域。
📄 摘要(原文)
Randomized smoothing (RS) is one of the prominent techniques to ensure the correctness of machine learning models, where point-wise robustness certificates can be derived analytically. While RS is well understood for classification, its application to generative models is unclear, since their outputs are sequences rather than labels. We resolve this by connecting generative outputs to an oracle classification task and showing that RS can still be enabled: the final response can be classified as a discrete action (e.g., service-robot commands in VLAs), as harmful vs. harmless (content moderation or toxicity detection in VLMs), or even applying oracles to cluster answers into semantically equivalent ones. Provided that the error rate for the oracle classifier comparison is bounded, we develop the theory that associates the number of samples with the corresponding robustness radius. We further derive improved scaling laws analytically relating the certified radius and accuracy to the number of samples, showing that the earlier result of 2 to 3 orders of magnitude fewer samples sufficing with minimal loss remains valid even under weaker assumptions. Together, these advances make robustness certification both well-defined and computationally feasible for state-of-the-art VLMs, as validated against recent jailbreak-style adversarial attacks.