Robust Vision-Language Models via Tensor Decomposition: A Defense Against Adversarial Attacks
作者: Het Patel, Muzammil Allie, Qian Zhang, Jia Chen, Evangelos E. Papalexakis
分类: cs.CV, cs.AI, cs.CL
发布日期: 2025-09-19
备注: To be presented as a poster at the Workshop on Safe and Trustworthy Multimodal AI Systems (SafeMM-AI), 2025
💡 一句话要点
提出一种基于张量分解的轻量级防御方法,提升视觉-语言模型对抗攻击的鲁棒性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉-语言模型 对抗攻击防御 张量分解 鲁棒性 多模态学习
📋 核心要点
- 视觉-语言模型易受对抗攻击,现有防御方法通常需要大量计算资源进行模型重训练或修改模型架构。
- 论文提出利用张量分解技术,对视觉编码器的特征表示进行分解和重构,从而滤除对抗噪声,提升模型鲁棒性。
- 实验结果表明,该方法在COCO和Flickr30K数据集上均能有效提升模型抵抗对抗攻击的能力,且计算开销小。
📝 摘要(中文)
视觉-语言模型(VLMs)在多模态理解方面表现出色,但容易受到对抗攻击。现有的防御方法通常需要昂贵的重新训练或重大的架构更改。本文提出了一种轻量级的防御方法,使用张量分解,适用于任何预训练的VLM,无需重新训练。通过分解和重构视觉编码器的表示,它可以在保留语义信息的同时过滤对抗噪声。在COCO和Flickr30K上对CLIP的实验表明,该方法提高了鲁棒性。在Flickr30K上,它恢复了因攻击而损失的12.3%的性能,将Recall@1的准确率从7.5%提高到19.8%。在COCO上,它恢复了8.1%的性能,将准确率从3.8%提高到11.9%。分析表明,低秩(8-32)和低残差强度($α=0.1-0.2$)的Tensor Train分解是最佳的。该方法是一种实用的、即插即用的解决方案,对现有VLM的开销最小。
🔬 方法详解
问题定义:视觉-语言模型在多模态任务中表现出色,但容易受到对抗攻击的影响。现有的防御方法,如对抗训练,通常需要大量的计算资源和时间进行模型重训练,或者需要对模型架构进行修改,这在实际应用中存在一定的局限性。因此,如何在不进行模型重训练或修改架构的前提下,提升视觉-语言模型的鲁棒性是一个重要的研究问题。
核心思路:论文的核心思路是利用张量分解技术,将视觉编码器输出的特征表示分解为低秩张量,并进行重构。对抗攻击通常会在特征表示中引入高频噪声,而张量分解可以有效地滤除这些噪声,同时保留原始特征中的重要语义信息。通过这种方式,可以提升模型对对抗样本的鲁棒性。
技术框架:该防御方法可以被视为一个即插即用的模块,插入到现有的视觉-语言模型中。具体流程如下:1) 对输入图像进行视觉编码,得到特征表示;2) 对特征表示进行张量分解,得到低秩张量;3) 对低秩张量进行重构,得到去噪后的特征表示;4) 将去噪后的特征表示输入到语言模型中,进行后续的多模态推理。
关键创新:该方法最重要的创新点在于,它提出了一种轻量级的防御方法,无需对模型进行重训练或修改架构,即可提升视觉-语言模型的鲁棒性。与现有的防御方法相比,该方法具有更高的效率和更低的计算成本,更易于在实际应用中部署。
关键设计:论文采用了Tensor Train分解,并对分解的秩(rank)和残差强度(residual strength)进行了优化。实验结果表明,低秩(8-32)和低残差强度($α=0.1-0.2$)的Tensor Train分解可以获得最佳的性能。残差强度控制着原始特征信息保留的程度,过高的残差强度会导致噪声无法有效滤除,而过低的残差强度会导致语义信息的损失。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法在Flickr30K数据集上,将Recall@1的准确率从7.5%提升到19.8%,恢复了因对抗攻击而损失的12.3%的性能。在COCO数据集上,将准确率从3.8%提升到11.9%,恢复了8.1%的性能。实验还表明,低秩(8-32)和低残差强度($α=0.1-0.2$)的Tensor Train分解可以获得最佳的性能。
🎯 应用场景
该研究成果可广泛应用于各种需要高安全性的视觉-语言模型应用场景,例如自动驾驶、智能监控、医疗影像分析等。通过提升模型对对抗攻击的鲁棒性,可以有效防止恶意攻击者利用对抗样本干扰模型的正常运行,保障系统的安全性和可靠性。未来,该方法可以进一步扩展到其他多模态模型和任务中。
📄 摘要(原文)
Vision language models (VLMs) excel in multimodal understanding but are prone to adversarial attacks. Existing defenses often demand costly retraining or significant architecture changes. We introduce a lightweight defense using tensor decomposition suitable for any pre-trained VLM, requiring no retraining. By decomposing and reconstructing vision encoder representations, it filters adversarial noise while preserving meaning. Experiments with CLIP on COCO and Flickr30K show improved robustness. On Flickr30K, it restores 12.3\% performance lost to attacks, raising Recall@1 accuracy from 7.5\% to 19.8\%. On COCO, it recovers 8.1\% performance, improving accuracy from 3.8\% to 11.9\%. Analysis shows Tensor Train decomposition with low rank (8-32) and low residual strength ($α=0.1-0.2$) is optimal. This method is a practical, plug-and-play solution with minimal overhead for existing VLMs.