AGC: Adaptive Geodesic Correction for Adversarial Robustness on Vision-Language Models

作者: Zhiwei Li, Jiacheng Xue, Weining Wang, Ajian Liu, Xingyu Gao, Zhenan Sun, Qi Li

分类: cs.CV

发布日期: 2026-05-15

💡 一句话要点

提出自适应测地线校正(AGC)，提升视觉-语言模型在对抗攻击下的鲁棒性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言模型 对抗鲁棒性 数据增强 测地线校正 零样本学习

📋 核心要点

现有测试时防御方法依赖梯度优化，计算开销大，限制了视觉-语言模型在对抗环境下的应用。
AGC利用数据增强的几何特性，选取可靠增强作为锚点，自适应校正输入特征，无需训练。
实验表明，AGC在多个数据集和CLIP模型上显著提升了鲁棒性，同时降低了推理延迟。

📝 摘要（中文）

CLIP等视觉-语言模型展现了卓越的零样本迁移能力，但它们对细微对抗扰动的敏感性仍然是一个关键的安全问题。测试时防御为已部署的模型提供了一种实用的解决方案，但现有方法通常依赖于推理期间的基于梯度的优化，导致显著的计算开销。本文重新审视了数据增强在CLIP鲁棒性中的作用，并观察到增强并非同等有效：特定的增强始终提供鲁棒的几何线索，这些线索与超球面特征空间中正确的类语义对齐。基于此，我们提出了一种无需训练的防御机制——自适应测地线校正(AGC)，它不需要参数更新。AGC识别可靠的增强作为几何锚点，并利用自适应步长将输入特征向其校正，从而平衡鲁棒性和干净样本的精度保持。AGC在八个细粒度数据集和三个CLIP骨干网络上实现了卓越的性能，与最先进的基线相比，平均鲁棒精度提高了44.4％，同时推理延迟降低了10倍。我们的发现揭示了CLIP特征的基本几何属性，为鲁棒的多模态部署提供了一种高效且有效的范例。

🔬 方法详解

问题定义：视觉-语言模型，如CLIP，虽然具有强大的零样本迁移能力，但容易受到对抗样本的攻击。现有的测试时防御方法通常需要基于梯度的优化，这导致了显著的计算开销，使其难以在实际应用中部署。因此，如何在不引入额外计算负担的情况下，提高视觉-语言模型在对抗攻击下的鲁棒性是一个关键问题。

核心思路：论文的核心思路是利用数据增强的几何特性来提高模型的鲁棒性。作者观察到，不同的数据增强方法对模型的鲁棒性影响不同，某些特定的增强方法能够提供与正确类别语义对齐的鲁棒几何线索。因此，论文提出将这些可靠的增强作为几何锚点，通过将对抗样本的特征向这些锚点校正，从而提高模型的鲁棒性。

技术框架：AGC (Adaptive Geodesic Correction) 的整体框架包括以下几个主要步骤：1) 对输入图像进行多种数据增强；2) 使用CLIP模型提取原始图像和增强图像的特征；3) 选择一个可靠的增强作为几何锚点；4) 计算原始图像特征与锚点特征之间的测地线距离；5) 使用自适应步长沿着测地线方向校正原始图像的特征，使其更接近锚点特征；6) 使用校正后的特征进行分类。

关键创新：AGC最重要的技术创新点在于它是一种无需训练的防御机制，不需要对模型参数进行任何更新。它通过利用数据增强的几何特性，找到可靠的几何锚点，并自适应地校正输入特征，从而在提高鲁棒性的同时，保持了干净样本的精度。与现有方法相比，AGC显著降低了计算开销，使其更适合实际部署。

关键设计：AGC的关键设计包括：1) 选择可靠增强作为几何锚点的方法；2) 自适应步长的计算方法，用于平衡鲁棒性和干净样本的精度；3) 使用测地线距离来衡量特征之间的相似度，从而更准确地进行特征校正。具体来说，自适应步长是根据原始特征和锚点特征之间的距离动态调整的，距离越远，步长越大，反之亦然。这种设计可以确保在对抗样本远离锚点时进行更强的校正，而在干净样本接近锚点时进行更小的校正。

🖼️ 关键图片

📊 实验亮点

AGC在八个细粒度数据集和三个CLIP骨干网络上进行了评估，结果表明，与最先进的基线相比，AGC的平均鲁棒精度提高了44.4％，同时推理延迟降低了10倍。这些结果表明，AGC是一种高效且有效的防御机制，可以在显著提高模型鲁棒性的同时，降低计算开销。

🎯 应用场景

该研究成果可应用于各种需要视觉-语言模型参与的场景，尤其是在安全性要求较高的领域，如自动驾驶、智能监控、医疗诊断等。通过提高模型在对抗攻击下的鲁棒性，可以有效防止恶意攻击者利用对抗样本干扰模型的正常运行，保障系统的安全性和可靠性。未来，该方法可以进一步扩展到其他多模态模型和任务中。

📄 摘要（原文）

Vision-language models like CLIP have demonstrated remarkable zero-shot transfer capabilities. However, their susceptibility to imperceptible adversarial perturbations remains a critical security concern. While test-time defenses offer a pragmatic solution for deployed models, existing approaches typically rely on gradient-based optimization during inference, incurring significant computational overhead. In this paper, we revisit the role of data augmentation in CLIP robustness and observe that augmentations are not equally effective: specific augmentations consistently provide robust geometric cues that align with correct class semantics in the hyperspherical feature space. Based on this, we propose Adaptive Geodesic Correction (AGC), a training-free defense mechanism that requires no parameter updates. AGC identifies a reliable augmentation as a geometric anchor and corrects the input feature towards it, utilizing an adaptive step size to balance robustness against clean accuracy preservation. AGC achieves superior performance across eight fine-grained datasets and three CLIP backbones, improving average robust accuracy by 44.4\% over state-of-the-art baseline while delivering a 10$\times$ reduction in inference latency. Our findings reveal a fundamental geometric property of CLIP features, offering a highly efficient and effective paradigm for robust multimodal deployment.

AGC: Adaptive Geodesic Correction for Adversarial Robustness on Vision-Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理