When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models

作者: Yuping Yan, Yuhan Xie, Yixin Zhang, Lingjuan Lyu, Handing Wang, Yaochu Jin

分类: cs.CV, cs.AI

发布日期: 2025-11-20 (更新: 2025-12-11)

💡 一句话要点

VLA-Fool：针对具身视觉-语言-动作模型的多模态对抗攻击研究

🎯 匹配领域: 支柱一：机器人控制 (Robot Control)

关键词: 视觉-语言-动作模型 对抗攻击 多模态学习 具身智能 鲁棒性 跨模态对齐 语义空间

📋 核心要点

现有VLA模型对抗鲁棒性研究不足，尤其是在多模态和黑盒场景下，忽略了跨模态语义对齐的重要性。
论文提出VLA-Fool框架，通过文本、视觉扰动和跨模态错位攻击，评估VLA模型在对抗环境下的性能。
实验表明，即使是轻微的多模态扰动也会导致VLA模型行为出现显著偏差，揭示了其脆弱性。

📝 摘要（中文）

视觉-语言-动作模型(VLA)在具身环境中取得了显著进展，使机器人能够通过统一的多模态理解进行感知、推理和行动。尽管它们的能力令人印象深刻，但这些系统在现实的多模态和黑盒条件下的对抗鲁棒性仍未得到充分探索。现有研究主要集中在单模态扰动，忽略了从根本上影响具身推理和决策的跨模态错位。本文提出了VLA-Fool，一项针对具身VLA模型在白盒和黑盒设置下多模态对抗鲁棒性的全面研究。VLA-Fool统一了三个层次的多模态对抗攻击：(1)通过基于梯度和基于提示的操纵进行文本扰动，(2)通过补丁和噪声失真进行视觉扰动，(3)有意破坏感知和指令之间语义对应关系的跨模态错位攻击。我们进一步将VLA感知的语义空间整合到语言提示中，开发了第一个自动生成和语义引导的提示框架。使用微调的OpenVLA模型在LIBERO基准上的实验表明，即使是轻微的多模态扰动也会导致显著的行为偏差，证明了具身多模态对齐的脆弱性。

🔬 方法详解

问题定义：论文旨在解决视觉-语言-动作模型（VLA）在对抗攻击下的脆弱性问题。现有研究主要集中于单模态的扰动，忽略了多模态信息之间的语义对齐，这对于VLA模型在具身环境中的推理和决策至关重要。因此，如何有效地评估和提升VLA模型在多模态对抗攻击下的鲁棒性是本文要解决的核心问题。

核心思路：论文的核心思路是通过构建一个全面的多模态对抗攻击框架VLA-Fool，系统性地评估VLA模型在不同类型的攻击下的性能。该框架不仅考虑了单模态的扰动（文本和视觉），还特别关注了跨模态的语义错位攻击，旨在模拟真实世界中可能出现的各种对抗场景。通过分析模型在这些攻击下的表现，可以深入了解VLA模型的弱点，并为后续的鲁棒性提升提供指导。

技术框架：VLA-Fool框架包含三个主要模块：文本扰动模块、视觉扰动模块和跨模态错位攻击模块。文本扰动模块通过梯度和提示工程方法生成对抗性文本指令。视觉扰动模块则通过添加补丁或噪声来干扰视觉输入。跨模态错位攻击模块旨在破坏视觉和语言信息之间的语义一致性。此外，该框架还引入了一个VLA感知的语义空间，用于指导提示的生成，从而提高攻击的有效性。

关键创新：论文的关键创新在于提出了一个统一的多模态对抗攻击框架，该框架不仅考虑了单模态的扰动，更重要的是，引入了跨模态错位攻击的概念。这种攻击方式能够更真实地模拟现实世界中可能出现的对抗场景，从而更有效地评估VLA模型的鲁棒性。此外，VLA感知的语义空间和自动提示生成框架也是一个重要的创新点，能够提高攻击的效率和效果。

关键设计：在文本扰动模块中，使用了基于梯度的方法来寻找对模型影响最大的词语进行替换。在视觉扰动模块中，采用了patch攻击和noise攻击两种方式。在跨模态错位攻击模块中，通过替换与视觉信息不相关的文本描述来破坏语义一致性。VLA感知的语义空间则通过分析VLA模型的内部表示来构建，用于指导提示的生成，确保生成的提示能够有效地欺骗模型。

📊 实验亮点

实验结果表明，即使是微小的多模态扰动也能显著降低OpenVLA模型在LIBERO基准上的性能。例如，跨模态错位攻击导致模型成功率下降超过30%。VLA-Fool框架能够有效地评估VLA模型的鲁棒性，并揭示其在多模态对抗攻击下的脆弱性，为后续的防御研究提供了重要参考。

🎯 应用场景

该研究成果可应用于提升机器人在复杂环境中的可靠性和安全性，例如自动驾驶、智能家居和工业机器人等领域。通过增强VLA模型对对抗攻击的鲁棒性，可以减少因恶意攻击或环境干扰导致的意外行为，提高系统的稳定性和安全性。此外，该研究也有助于开发更安全的AI系统，防止其被恶意利用。

📄 摘要（原文）

Vision-Language-Action models (VLAs) have recently demonstrated remarkable progress in embodied environments, enabling robots to perceive, reason, and act through unified multimodal understanding. Despite their impressive capabilities, the adversarial robustness of these systems remains largely unexplored, especially under realistic multimodal and black-box conditions. Existing studies mainly focus on single-modality perturbations and overlook the cross-modal misalignment that fundamentally affects embodied reasoning and decision-making. In this paper, we introduce VLA-Fool, a comprehensive study of multimodal adversarial robustness in embodied VLA models under both white-box and black-box settings. VLA-Fool unifies three levels of multimodal adversarial attacks: (1) textual perturbations through gradient-based and prompt-based manipulations, (2) visual perturbations via patch and noise distortions, and (3) cross-modal misalignment attacks that intentionally disrupt the semantic correspondence between perception and instruction. We further incorporate a VLA-aware semantic space into linguistic prompts, developing the first automatically crafted and semantically guided prompting framework. Experiments on the LIBERO benchmark using a fine-tuned OpenVLA model reveal that even minor multimodal perturbations can cause significant behavioral deviations, demonstrating the fragility of embodied multimodal alignment.

When Alignment Fails: Multimodal Adversarial Attacks on Vision-Language-Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册