EigenShield: Causal Subspace Filtering via Random Matrix Theory for Adversarially Robust Vision-Language Models

📄 arXiv: 2502.14976v1 📥 PDF

作者: Nastaran Darabi, Devashri Naik, Sina Tayebati, Dinithi Jayasuriya, Ranganath Krishnan, Amit Ranjan Trivedi

分类: cs.LG, cs.CR, cs.CV

发布日期: 2025-02-20


💡 一句话要点

EigenShield:利用随机矩阵理论进行因果子空间滤波,提升视觉-语言模型的对抗鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 对抗鲁棒性 随机矩阵理论 子空间滤波 对抗攻击 谱分析 因果推断

📋 核心要点

  1. 现有VLM防御方法计算成本高、依赖特定架构且易受攻击,无法有效应对对抗性攻击。
  2. EigenShield利用随机矩阵理论检测并分离因果特征向量和对抗性特征向量,实现对抗噪声过滤。
  3. 实验表明,EigenShield在对抗攻击下,性能优于对抗训练、UNIGUARD和CIDER等现有防御方法。

📝 摘要(中文)

视觉-语言模型(VLM)继承了大型语言模型(LLM)的对抗脆弱性,并且由于其多模态特性而进一步加剧。现有的防御方法,包括对抗训练、输入转换和启发式检测,计算成本高昂、依赖于特定架构,并且容易受到自适应攻击。我们提出了EigenShield,一种推理时防御方法,利用随机矩阵理论来量化高维VLM表示中的对抗扰动。与依赖经验启发式方法的先前方法不同,EigenShield采用尖峰协方差模型来检测结构化的谱偏差。通过使用基于鲁棒性的非一致性分数(RbNS)和基于分位数的阈值处理,它将编码语义信息的因果特征向量与易受对抗伪影影响的相关特征向量分离。通过将嵌入投影到因果子空间上,EigenShield可以在不修改模型参数或需要对抗训练的情况下过滤对抗噪声。这种架构无关、攻击不可知的策略显著降低了攻击成功率,并将谱分析确立为传统防御方法的原则性替代方案。我们的结果表明,EigenShield始终优于所有现有的防御方法,包括对抗训练、UNIGUARD和CIDER。

🔬 方法详解

问题定义:视觉-语言模型(VLM)容易受到对抗攻击的影响,导致模型性能下降。现有的防御方法,如对抗训练、输入转换等,存在计算成本高昂、依赖于特定模型架构、容易被自适应攻击绕过等问题。因此,需要一种更通用、更高效的防御机制来提高VLM的对抗鲁棒性。

核心思路:EigenShield的核心思想是利用随机矩阵理论,将VLM的嵌入空间分解为因果子空间和噪声子空间。假设对抗攻击主要影响嵌入空间中的噪声子空间,而因果子空间则包含更重要的语义信息。通过将嵌入投影到因果子空间,可以有效地过滤掉对抗噪声,从而提高模型的鲁棒性。这种方法无需修改模型参数或进行对抗训练。

技术框架:EigenShield主要包含以下几个阶段:1) 嵌入提取:从VLM中提取视觉和文本嵌入。2) 协方差矩阵计算:计算嵌入的协方差矩阵。3) 特征分解:对协方差矩阵进行特征分解,得到特征值和特征向量。4) 因果子空间识别:利用随机矩阵理论,基于鲁棒性的非一致性分数(RbNS)和分位数阈值,区分因果特征向量和噪声特征向量。5) 子空间投影:将原始嵌入投影到因果特征向量张成的子空间上。6) 下游任务:将投影后的嵌入输入到下游任务中进行预测。

关键创新:EigenShield的关键创新在于:1) 基于随机矩阵理论的对抗扰动量化:利用尖峰协方差模型检测嵌入空间中的结构化谱偏差,从而量化对抗扰动。2) 鲁棒性非一致性分数(RbNS):提出了一种新的RbNS来区分因果特征向量和噪声特征向量,该分数对对抗攻击具有鲁棒性。3) 架构无关和攻击不可知:EigenShield是一种架构无关和攻击不可知的防御方法,可以应用于各种VLM,并且不需要针对特定攻击进行训练。

关键设计:EigenShield的关键设计包括:1) RbNS的计算:RbNS基于特征向量对模型预测的影响程度进行计算,影响越大,则认为是因果特征向量的可能性越高。2) 分位数阈值:使用分位数阈值来确定RbNS的阈值,从而区分因果特征向量和噪声特征向量。3) 子空间投影:使用投影矩阵将原始嵌入投影到因果子空间,投影矩阵由因果特征向量构成。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

EigenShield在多个VLM模型和数据集上进行了评估,实验结果表明,EigenShield显著降低了对抗攻击的成功率,并且优于现有的防御方法,包括对抗训练、UNIGUARD和CIDER。例如,在某些攻击场景下,EigenShield可以将攻击成功率降低到接近于零的水平,相比其他防御方法有显著的性能提升。

🎯 应用场景

EigenShield可应用于各种视觉-语言模型,提高其在对抗环境下的可靠性,例如图像字幕、视觉问答、跨模态检索等。该方法有助于提升自动驾驶、医疗诊断等安全攸关领域的VLM系统的安全性,降低因对抗攻击导致的误判风险,具有重要的实际应用价值。

📄 摘要(原文)

Vision-Language Models (VLMs) inherit adversarial vulnerabilities of Large Language Models (LLMs), which are further exacerbated by their multimodal nature. Existing defenses, including adversarial training, input transformations, and heuristic detection, are computationally expensive, architecture-dependent, and fragile against adaptive attacks. We introduce EigenShield, an inference-time defense leveraging Random Matrix Theory to quantify adversarial disruptions in high-dimensional VLM representations. Unlike prior methods that rely on empirical heuristics, EigenShield employs the spiked covariance model to detect structured spectral deviations. Using a Robustness-based Nonconformity Score (RbNS) and quantile-based thresholding, it separates causal eigenvectors, which encode semantic information, from correlational eigenvectors that are susceptible to adversarial artifacts. By projecting embeddings onto the causal subspace, EigenShield filters adversarial noise without modifying model parameters or requiring adversarial training. This architecture-independent, attack-agnostic approach significantly reduces the attack success rate, establishing spectral analysis as a principled alternative to conventional defenses. Our results demonstrate that EigenShield consistently outperforms all existing defenses, including adversarial training, UNIGUARD, and CIDER.