Adversarial Attacks Against MLLMs via Progressive Resolution Processing and Adaptive Feature Alignment
作者: Haobo Wang, Xiaorong Ma, Weiqi Luo, Xiaojun Jia, Jiwu Huang
分类: cs.CV
发布日期: 2026-05-11
💡 一句话要点
提出PRAF-Attack框架,通过渐进式分辨率处理与自适应特征对齐提升MLLM黑盒攻击迁移性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 多模态大语言模型 对抗攻击 迁移性 特征对齐 黑盒攻击 模型鲁棒性
📋 核心要点
- 现有攻击方法过度依赖代理编码器的最终全局特征,且局限于原始分辨率的目标裁剪,导致在黑盒MLLM上的迁移性与鲁棒性不足。
- 提出PRAF-Attack框架,通过渐进式分辨率处理与自适应中间层特征对齐,实现了多尺度语义引导与局部特征的鲁棒优化。
- 实验证明,该方法在六个开源模型及六个商业API上均表现出卓越的攻击迁移性能,显著超越了现有的七种主流定向攻击基线。
📝 摘要(中文)
对抗性扰动可能误导多模态大语言模型(MLLM)将良性图像识别为特定目标,在自动驾驶和医疗诊断等安全敏感场景中构成严重威胁。现有的基于迁移的定向攻击方法通常依赖代理编码器的最终全局特征,并针对原始分辨率的目标裁剪进行锚点优化,导致其迁移性和鲁棒性受限。为解决这些挑战,本文提出了渐进式分辨率处理与自适应特征对齐(PRAF-Attack)框架。该框架集成了多尺度全局语义引导与鲁棒的中间层局部对齐。不同于仅对齐代理编码器最后一层的方法,我们设计了自适应特征对齐策略,利用中间层表示增强迁移性,并通过梯度一致性识别可迁移的层级特征。此外,我们引入了渐进式分辨率处理策略,从粗到细优化攻击,从而更好地利用多尺度目标信息。在六个开源模型和六个闭源商业API上的实验表明,PRAF-Attack在迁移性方面显著优于七种SOTA基线方法。
🔬 方法详解
问题定义:论文旨在解决多模态大语言模型(MLLM)在黑盒场景下的定向对抗攻击问题。现有方法主要依赖代理模型的最终层特征进行优化,且对目标图像的裁剪依赖于固定分辨率,导致攻击在面对不同架构的MLLM时迁移性较差。
核心思路:核心思想是利用多尺度语义信息与中间层特征的鲁棒性。通过引入渐进式分辨率处理,使攻击能够从全局到局部捕捉目标特征;同时,通过自适应特征对齐,利用梯度一致性筛选出最具迁移性的中间层特征,从而提升攻击在不同模型间的泛化能力。
技术框架:PRAF-Attack包含两个核心模块:一是渐进式分辨率处理模块,通过多尺度优化策略逐步细化扰动;二是自适应特征对齐模块,通过评估不同中间层的梯度一致性,动态选择最优层进行特征对齐,并结合补丁级(patch-level)过滤策略保留关键区域。
关键创新:最重要的创新在于将攻击优化从单一的最终层特征扩展至层级化的中间特征,并引入了“从粗到细”的渐进式分辨率优化机制,打破了对固定分辨率裁剪的依赖,显著增强了攻击对不同MLLM架构的适应性。
关键设计:关键技术细节包括:基于梯度一致性的中间层选择机制,用于量化不同层的迁移潜力;补丁级优化策略,通过高效过滤保留与目标高度相关的局部区域;以及多尺度损失函数,确保扰动在不同分辨率下均能有效引导模型输出目标标签。
🖼️ 关键图片
📊 实验亮点
PRAF-Attack在包含GPT-4V、Gemini Pro等6个闭源商业API及6个开源MLLM的广泛测试中表现优异。实验结果显示,该方法在定向攻击成功率上显著超越了包括TAP、AutoAttack等在内的七种SOTA基线,证明了其在跨模型迁移攻击中的强大性能与鲁棒性。
🎯 应用场景
该研究主要应用于评估多模态大语言模型的安全性与鲁棒性。在自动驾驶、医疗影像分析及内容审核等安全敏感领域,该方法可作为一种红队测试工具,帮助开发者识别模型在面对恶意对抗样本时的脆弱点,从而推动更安全、更鲁棒的多模态AI系统开发。
📄 摘要(原文)
Adversarial perturbations can mislead Multimodal Large Language Models (MLLMs) recognize a benign image as a specific target object, posing serious risks in safety-critical scenarios such as autonomous driving and medical diagnosis. This makes transfer-based targeted attacks crucial for understanding and improving black-box MLLM robustness. Existing transfer-based targeted attack methods typically rely on the final global features of the surrogate encoder and anchor optimization to original-resolution target crops, leading to their limited transferability and robustness. To address these challenges, we propose Progressive Resolution Processing and Adaptive Feature Alignment (PRAF-Attack), a targeted transfer-based attack framework that integrates multi-scale global semantic guidance with robust intermediate-layer local alignment. Unlike prior methods that align only the surrogate encoder's final layer, we design an adaptive feature alignment strategy that leverages intermediate representations to enhance transferability. Specifically, we introduce an adaptive intermediate layer selection mechanism to identify transferable hierarchical features across surrogate ensembles via gradient consistency, along with an adaptive patch-level optimization strategy that preserves highly correlated local regions through efficient patch filtering. To overcome the reliance on fixed original-resolution target crops, we propose a progressive resolution processing strategy that gradually refines optimization from coarse to fine, enabling the attack to better exploit target information at multiple scales and achieve stronger transferability. We evaluate PRAF-Attack on a diverse suite of black-box MLLMs, including six open-source models and six closed-source commercial APIs. Compared with seven state-of-the-art targeted attack baselines, the proposed PRAF-Attack consistently achieves superior transferability.