AdPO: Enhancing the Adversarial Robustness of Large Vision-Language Models with Preference Optimization

📄 arXiv: 2504.01735v1 📥 PDF

作者: Chaohu Liu, Tianyi Gui, Yu Liu, Linli Xu

分类: cs.CV, cs.AI

发布日期: 2025-04-02


💡 一句话要点

提出AdPO以增强大规模视觉语言模型的对抗鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 对抗鲁棒性 视觉语言模型 偏好优化 图像编码器 多模态学习

📋 核心要点

  1. 现有的对抗微调方法在增强模型鲁棒性的同时,往往导致干净输入上的性能下降。
  2. 本文提出AdPO,将对抗训练视为偏好优化问题,旨在提升模型对正常输出的偏好。
  3. 实验结果表明,AdPO在多种下游任务中实现了优越的干净和对抗性能,且训练效率高。

📝 摘要(中文)

大规模视觉语言模型(LVLMs)如GPT-4o和LLaVA在实际应用中取得了显著进展,但仍然容易受到对抗攻击,导致错误或恶意输出。现有的对抗微调方法虽然增强了鲁棒性,但在干净输入上往往表现不佳。本文提出了一种基于偏好优化的对抗防御策略AdPO,首次将对抗训练重新定义为偏好优化问题,旨在增强模型对干净输入的正常输出偏好,同时拒绝对抗样本的误导性输出。AdPO通过仅修改图像编码器(如CLIP ViT)实现了在多种下游任务中优越的干净和对抗性能。我们验证了在较小的LVLMs上训练并转移到更大模型的策略,能够在保持效率的同时实现竞争力的性能。

🔬 方法详解

问题定义:本文解决的是大规模视觉语言模型在面对对抗攻击时的脆弱性,现有方法在提升鲁棒性时常常导致干净输入性能下降的问题。

核心思路:论文的核心思路是将对抗训练重新框定为偏好优化问题,旨在增强模型对干净输入的正常输出偏好,同时抑制对抗样本的误导性输出。这样的设计使得模型在面对对抗攻击时能够更好地保持性能。

技术框架:AdPO的整体架构主要包括图像编码器的修改和偏好优化的实现。通过对图像编码器(如CLIP ViT)的调整,模型能够在生成输出时更倾向于正常样本。

关键创新:AdPO的创新点在于首次将对抗训练视为偏好优化问题,这一视角与传统的对抗训练方法有本质区别,能够在不牺牲干净输入性能的情况下提升对抗鲁棒性。

关键设计:在技术细节上,AdPO通过特定的损失函数设计来优化模型的输出偏好,同时在训练过程中采用较小的LVLMs进行初步训练,再转移到更大的模型上,以提高训练效率和性能。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,AdPO在多种下游任务中显著提升了模型的干净和对抗性能。与基线方法相比,AdPO在对抗样本上的准确率提高了XX%,而在干净输入上的性能保持稳定,验证了其有效性和实用性。

🎯 应用场景

该研究的潜在应用领域包括图像识别、自然语言处理和多模态学习等。通过增强视觉语言模型的对抗鲁棒性,AdPO可以在安全性要求较高的应用场景中发挥重要作用,如自动驾驶、医疗影像分析等,未来可能对相关领域的技术发展产生深远影响。

📄 摘要(原文)

Large Vision-Language Models (LVLMs), such as GPT-4o and LLaVA, have recently witnessed remarkable advancements and are increasingly being deployed in real-world applications. However, inheriting the sensitivity of visual neural networks, LVLMs remain vulnerable to adversarial attacks, which can result in erroneous or malicious outputs. While existing efforts utilize adversarial fine-tuning to enhance robustness, they often suffer from performance degradation on clean inputs. In this paper, we proposes AdPO, a novel adversarial defense strategy for LVLMs based on preference optimization. For the first time, we reframe adversarial training as a preference optimization problem, aiming to enhance the model's preference for generating normal outputs on clean inputs while rejecting the potential misleading outputs for adversarial examples. Notably, AdPO achieves this by solely modifying the image encoder, e.g., CLIP ViT, resulting in superior clean and adversarial performance in a variety of downsream tasks. Considering that training involves large language models (LLMs), the computational cost increases significantly. We validate that training on smaller LVLMs and subsequently transferring to larger models can achieve competitive performance while maintaining efficiency comparable to baseline methods. Our comprehensive experiments confirm the effectiveness of the proposed AdPO, which provides a novel perspective for future adversarial defense research.