PhysPatch: A Physically Realizable and Transferable Adversarial Patch Attack for Multimodal Large Language Models-based Autonomous Driving Systems
作者: Qi Guo, Xiaojun Jia, Shanmin Pang, Simeng Qin, Lin Wang, Ju Jia, Yang Liu, Qing Guo
分类: cs.CV
发布日期: 2025-08-07
💡 一句话要点
PhysPatch:面向多模态大语言模型自动驾驶系统的物理可实现且可迁移的对抗补丁攻击
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 对抗攻击 对抗补丁 多模态大语言模型 自动驾驶系统 物理可实现 可迁移性 安全性评估
📋 核心要点
- 现有对抗补丁攻击方法难以有效攻击基于多模态大语言模型的自动驾驶系统,因为后者架构复杂且具备推理能力。
- PhysPatch通过联合优化补丁的位置、形状和内容,并结合语义信息和物理可行性约束,提升攻击的有效性和可迁移性。
- 实验表明,PhysPatch在多种MLLM自动驾驶系统中显著优于现有方法,且补丁位置具有物理可行性。
📝 摘要(中文)
多模态大语言模型(MLLM)凭借其强大的视觉-语言推理能力,正日益成为自动驾驶(AD)系统不可或缺的一部分。然而,MLLM容易受到对抗攻击的影响,特别是对抗补丁攻击,这可能在现实场景中构成严重威胁。现有的基于补丁的攻击方法主要为目标检测模型设计,当迁移到基于MLLM的系统时,由于后者复杂的架构和推理能力,性能较差。为了解决这些局限性,我们提出了PhysPatch,一个为基于MLLM的AD系统量身定制的物理可实现且可迁移的对抗补丁框架。PhysPatch联合优化补丁的位置、形状和内容,以提高攻击有效性和现实适用性。它引入了一种基于语义的掩码初始化策略,用于现实的放置;一种基于SVD的局部对齐损失,结合补丁引导的裁剪-调整大小,以提高可迁移性;以及一种基于势场的掩码细化方法。在开源、商业和具有推理能力的MLLM上的大量实验表明,PhysPatch在引导基于MLLM的AD系统朝着目标对齐的感知和规划输出方面,显著优于现有方法。此外,PhysPatch始终将对抗补丁放置在AD场景中物理上可行的区域,确保了强大的现实适用性和可部署性。
🔬 方法详解
问题定义:论文旨在解决现有对抗补丁攻击方法在攻击基于多模态大语言模型(MLLM)的自动驾驶系统时效果不佳的问题。现有方法主要针对目标检测模型设计,无法有效利用MLLM的视觉-语言推理能力,且忽略了物理世界约束,导致攻击难以迁移到真实场景。
核心思路:PhysPatch的核心思路是设计一种物理可实现且可迁移的对抗补丁,通过联合优化补丁的位置、形状和内容,并结合语义信息和物理可行性约束,来欺骗MLLM自动驾驶系统,使其产生目标对齐的错误感知和规划输出。这样设计的目的是提高攻击的有效性、可迁移性和现实适用性。
技术框架:PhysPatch框架主要包含以下几个阶段:1) 语义掩码初始化:根据场景的语义信息,初始化补丁的可能位置,确保其放置在物理上合理的区域。2) 补丁生成与优化:联合优化补丁的内容、形状和位置,以最大化攻击效果。3) 局部对齐损失:使用基于SVD的局部对齐损失,结合补丁引导的裁剪-调整大小,提高补丁在不同视角和光照条件下的可迁移性。4) 势场掩码细化:利用势场方法对掩码进行细化,进一步约束补丁的位置,使其更符合物理世界的规律。
关键创新:PhysPatch的关键创新在于:1) 联合优化:同时优化补丁的位置、形状和内容,而非像传统方法那样只关注内容。2) 语义掩码初始化:利用场景的语义信息来指导补丁的放置,提高攻击的隐蔽性和物理可行性。3) 局部对齐损失:通过SVD和补丁引导的裁剪-调整大小,增强补丁的可迁移性。4) 势场掩码细化:使用势场方法约束补丁的位置,使其更符合物理世界的规律。
关键设计:1) 语义掩码初始化:使用预训练的语义分割模型来生成场景的语义分割图,然后根据语义类别设置不同的权重,引导补丁放置在特定的区域。2) 局部对齐损失:使用SVD分解补丁的特征图,然后计算分解后的特征向量之间的距离,作为局部对齐损失。3) 势场掩码细化:定义一个势场,其中障碍物(如车辆、行人)产生斥力,目标区域(如道路)产生引力,然后使用梯度下降法来优化掩码的位置。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PhysPatch在多种开源、商业和具有推理能力的MLLM自动驾驶系统中,显著优于现有的对抗补丁攻击方法。PhysPatch能够成功引导MLLM产生目标对齐的错误感知和规划输出,且补丁位置具有物理可行性。具体性能数据(如攻击成功率、迁移性等)在论文中进行了详细展示。
🎯 应用场景
该研究成果可应用于评估和提升多模态大语言模型在自动驾驶系统中的安全性。通过模拟真实世界中的对抗攻击,可以发现MLLM的潜在漏洞,并开发相应的防御机制,例如对抗训练、输入过滤等,从而提高自动驾驶系统的鲁棒性和可靠性,保障行车安全。
📄 摘要(原文)
Multimodal Large Language Models (MLLMs) are becoming integral to autonomous driving (AD) systems due to their strong vision-language reasoning capabilities. However, MLLMs are vulnerable to adversarial attacks, particularly adversarial patch attacks, which can pose serious threats in real-world scenarios. Existing patch-based attack methods are primarily designed for object detection models and perform poorly when transferred to MLLM-based systems due to the latter's complex architectures and reasoning abilities. To address these limitations, we propose PhysPatch, a physically realizable and transferable adversarial patch framework tailored for MLLM-based AD systems. PhysPatch jointly optimizes patch location, shape, and content to enhance attack effectiveness and real-world applicability. It introduces a semantic-based mask initialization strategy for realistic placement, an SVD-based local alignment loss with patch-guided crop-resize to improve transferability, and a potential field-based mask refinement method. Extensive experiments across open-source, commercial, and reasoning-capable MLLMs demonstrate that PhysPatch significantly outperforms prior methods in steering MLLM-based AD systems toward target-aligned perception and planning outputs. Moreover, PhysPatch consistently places adversarial patches in physically feasible regions of AD scenes, ensuring strong real-world applicability and deployability.