AGC: Adaptive Geodesic Correction for Adversarial Robustness on Vision-Language Models

📄 arXiv: 2605.15584v1 📥 PDF

作者: Zhiwei Li, Jiacheng Xue, Weining Wang, Ajian Liu, Xingyu Gao, Zhenan Sun, Qi Li

分类: cs.CV

发布日期: 2026-05-15


💡 一句话要点

提出自适应测地线校正(AGC),提升视觉-语言模型在对抗攻击下的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 对抗鲁棒性 数据增强 测地线校正 零样本学习

📋 核心要点

  1. 现有测试时防御方法依赖梯度优化,计算开销大,限制了视觉-语言模型在对抗环境下的应用。
  2. AGC利用数据增强的几何特性,选取可靠增强作为锚点,自适应校正输入特征,无需训练。
  3. 实验表明,AGC在多个数据集和CLIP模型上显著提升了鲁棒性,同时降低了推理延迟。

📝 摘要(中文)

CLIP等视觉-语言模型展现了卓越的零样本迁移能力,但它们对细微对抗扰动的敏感性仍然是一个关键的安全问题。测试时防御为已部署的模型提供了一种实用的解决方案,但现有方法通常依赖于推理期间的基于梯度的优化,导致显著的计算开销。本文重新审视了数据增强在CLIP鲁棒性中的作用,并观察到增强并非同等有效:特定的增强始终提供鲁棒的几何线索,这些线索与超球面特征空间中正确的类语义对齐。基于此,我们提出了一种无需训练的防御机制——自适应测地线校正(AGC),它不需要参数更新。AGC识别可靠的增强作为几何锚点,并利用自适应步长将输入特征向其校正,从而平衡鲁棒性和干净样本的精度保持。AGC在八个细粒度数据集和三个CLIP骨干网络上实现了卓越的性能,与最先进的基线相比,平均鲁棒精度提高了44.4%,同时推理延迟降低了10倍。我们的发现揭示了CLIP特征的基本几何属性,为鲁棒的多模态部署提供了一种高效且有效的范例。

🔬 方法详解

问题定义:视觉-语言模型,如CLIP,虽然具有强大的零样本迁移能力,但容易受到对抗样本的攻击。现有的测试时防御方法通常需要基于梯度的优化,这导致了显著的计算开销,使其难以在实际应用中部署。因此,如何在不引入额外计算负担的情况下,提高视觉-语言模型在对抗攻击下的鲁棒性是一个关键问题。

核心思路:论文的核心思路是利用数据增强的几何特性来提高模型的鲁棒性。作者观察到,不同的数据增强方法对模型的鲁棒性影响不同,某些特定的增强方法能够提供与正确类别语义对齐的鲁棒几何线索。因此,论文提出将这些可靠的增强作为几何锚点,通过将对抗样本的特征向这些锚点校正,从而提高模型的鲁棒性。

技术框架:AGC (Adaptive Geodesic Correction) 的整体框架包括以下几个主要步骤:1) 对输入图像进行多种数据增强;2) 使用CLIP模型提取原始图像和增强图像的特征;3) 选择一个可靠的增强作为几何锚点;4) 计算原始图像特征与锚点特征之间的测地线距离;5) 使用自适应步长沿着测地线方向校正原始图像的特征,使其更接近锚点特征;6) 使用校正后的特征进行分类。

关键创新:AGC最重要的技术创新点在于它是一种无需训练的防御机制,不需要对模型参数进行任何更新。它通过利用数据增强的几何特性,找到可靠的几何锚点,并自适应地校正输入特征,从而在提高鲁棒性的同时,保持了干净样本的精度。与现有方法相比,AGC显著降低了计算开销,使其更适合实际部署。

关键设计:AGC的关键设计包括:1) 选择可靠增强作为几何锚点的方法;2) 自适应步长的计算方法,用于平衡鲁棒性和干净样本的精度;3) 使用测地线距离来衡量特征之间的相似度,从而更准确地进行特征校正。具体来说,自适应步长是根据原始特征和锚点特征之间的距离动态调整的,距离越远,步长越大,反之亦然。这种设计可以确保在对抗样本远离锚点时进行更强的校正,而在干净样本接近锚点时进行更小的校正。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

AGC在八个细粒度数据集和三个CLIP骨干网络上进行了评估,结果表明,与最先进的基线相比,AGC的平均鲁棒精度提高了44.4%,同时推理延迟降低了10倍。这些结果表明,AGC是一种高效且有效的防御机制,可以在显著提高模型鲁棒性的同时,降低计算开销。

🎯 应用场景

该研究成果可应用于各种需要视觉-语言模型参与的场景,尤其是在安全性要求较高的领域,如自动驾驶、智能监控、医疗诊断等。通过提高模型在对抗攻击下的鲁棒性,可以有效防止恶意攻击者利用对抗样本干扰模型的正常运行,保障系统的安全性和可靠性。未来,该方法可以进一步扩展到其他多模态模型和任务中。

📄 摘要(原文)

Vision-language models like CLIP have demonstrated remarkable zero-shot transfer capabilities. However, their susceptibility to imperceptible adversarial perturbations remains a critical security concern. While test-time defenses offer a pragmatic solution for deployed models, existing approaches typically rely on gradient-based optimization during inference, incurring significant computational overhead. In this paper, we revisit the role of data augmentation in CLIP robustness and observe that augmentations are not equally effective: specific augmentations consistently provide robust geometric cues that align with correct class semantics in the hyperspherical feature space. Based on this, we propose Adaptive Geodesic Correction (AGC), a training-free defense mechanism that requires no parameter updates. AGC identifies a reliable augmentation as a geometric anchor and corrects the input feature towards it, utilizing an adaptive step size to balance robustness against clean accuracy preservation. AGC achieves superior performance across eight fine-grained datasets and three CLIP backbones, improving average robust accuracy by 44.4\% over state-of-the-art baseline while delivering a 10$\times$ reduction in inference latency. Our findings reveal a fundamental geometric property of CLIP features, offering a highly efficient and effective paradigm for robust multimodal deployment.