DropVLA: An Action-Level Backdoor Attack on Vision--Language--Action Models

📄 arXiv: 2510.10932 📥 PDF

作者: Zonghuan Xu, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang

分类: cs.CR, cs.AI, cs.RO

发布日期: 2026-02-28


💡 一句话要点

提出DropVLA,实现对Vision-Language-Action模型细粒度动作级后门攻击

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: Vision-Language-Action模型 后门攻击 动作级控制 数据中毒 机器人控制

📋 核心要点

  1. 现有VLA后门攻击主要集中于非目标攻击或任务级劫持,缺乏对单个动作的细粒度控制。
  2. DropVLA通过窗口一致重标记方案和分块微调,在有限数据中毒条件下实现动作级别的后门攻击。
  3. 实验表明,DropVLA在保持任务性能的同时,能以高成功率触发目标动作,且对触发器变化具有鲁棒性。

📝 摘要(中文)

Vision-Language-Action (VLA) 模型将多模态感知和语言指令映射到可执行的机器人动作,因此极易受到行为后门操纵的影响:在训练期间引入的隐藏触发器会导致意外的物理动作,同时保持名义任务的性能完好无损。先前关于VLA后门的工作主要研究非目标攻击或任务级劫持,而对单个动作的细粒度控制在很大程度上未被探索。本文提出了DropVLA,一种动作级后门攻击,它强制可重用的动作原语(例如,open_gripper)在攻击者选择的决策点执行,该攻击在具有有限数据中毒访问的真实pipeline-black-box设置下,使用用于分块微调的窗口一致重标记方案。在用LIBERO评估的OpenVLA-7B上,仅视觉中毒实现了98.67%-99.83%的攻击成功率(ASR),仅使用0.31%的中毒episode,同时保留了98.50%-99.17%的clean-task retention,并在500 Hz(0.05 s)的25个控制步骤内成功触发了目标动作。纯文本触发器在低中毒预算下不稳定,并且将文本与视觉结合使用并不能始终如一地提高视觉攻击的ASR。后门对于适度的触发器变化保持鲁棒性,并且可以跨评估套件转移(96.27%,99.09%),而纯文本在很大程度上失败(0.72%)。我们进一步在具有pi0-fast的7-DoF Franka机械臂上验证了物理世界的可行性,证明了在相机相对运动下非平凡的攻击效果,该运动会引起图像平面触发器漂移。这些结果表明,VLA模型可以在安全关键动作的粒度上被秘密操纵,只需极少的投毒,且不会观察到名义性能的下降。

🔬 方法详解

问题定义:VLA模型容易受到后门攻击,攻击者可以通过在训练数据中引入恶意触发器,控制模型在特定情况下执行非预期动作。现有方法主要关注任务级别的攻击,即控制整个任务的执行结果,而缺乏对单个动作的精细控制。这种粗粒度的攻击方式容易被检测,且无法实现更隐蔽和精确的操纵。

核心思路:DropVLA的核心思路是在训练数据中引入特定的视觉或文本触发器,当模型在推理过程中检测到这些触发器时,就会强制执行攻击者预先设定的目标动作。为了保证攻击的隐蔽性,DropVLA采用了一种窗口一致的重标记方案,确保在触发器出现的时间窗口内,模型学习到执行目标动作的概率更高。

技术框架:DropVLA的攻击流程主要包括以下几个步骤:1) 选择目标动作:攻击者首先确定要控制的目标动作,例如打开夹爪(open_gripper)。2) 注入触发器:在训练数据中,攻击者在特定的视觉或文本输入中插入触发器。3) 窗口一致重标记:对于包含触发器的训练样本,在触发器出现的时间窗口内,将对应的动作标签修改为目标动作。4) 分块微调:使用中毒数据对VLA模型进行微调,使模型学习到触发器与目标动作之间的关联。

关键创新:DropVLA的关键创新在于实现了动作级别的后门攻击,能够精确控制VLA模型在特定时刻执行特定的动作。与现有方法相比,DropVLA的攻击粒度更细,隐蔽性更强,更难被检测。此外,DropVLA还提出了一种窗口一致的重标记方案,保证了攻击的稳定性和可靠性。

关键设计:DropVLA的关键设计包括:1) 触发器的选择:触发器需要足够隐蔽,不易被人类察觉,同时又能够被模型有效识别。2) 窗口大小的设置:窗口大小需要根据具体任务和动作的持续时间进行调整,以保证目标动作能够被完整执行。3) 中毒率的控制:中毒率需要控制在一个较低的水平,以避免对模型的整体性能产生显著影响。

📊 实验亮点

在OpenVLA-7B模型上,仅使用0.31%的中毒数据,DropVLA实现了98.67%-99.83%的攻击成功率,同时保持了98.50%-99.17%的clean-task retention。该后门对触发器变化具有鲁棒性,并且可以跨评估套件转移(96.27%,99.09%)。在真实的Franka机械臂上,DropVLA也验证了物理世界的可行性。

🎯 应用场景

DropVLA的研究成果可应用于评估和增强VLA模型的安全性,尤其是在机器人控制、自动驾驶等安全攸关领域。通过模拟和分析后门攻击,可以发现VLA模型中的潜在漏洞,并开发相应的防御机制,提高系统的鲁棒性和可靠性。此外,该研究也为开发更安全的VLA模型提供了新的思路和方法。

📄 摘要(原文)

Vision-Language-Action (VLA) models map multimodal perception and language instructions to executable robot actions, making them particularly vulnerable to behavioral backdoor manipulation: a hidden trigger introduced during training can induce unintended physical actions while nominal task performance remains intact. Prior work on VLA backdoors primarily studies untargeted attacks or task-level hijacking, leaving fine-grained control over individual actions largely unexplored. In this work, we present DropVLA, an action-level backdoor attack that forces a reusable action primitive (e.g., open_gripper) to execute at attacker-chosen decision points under a realistic pipeline-black-box setting with limited data-poisoning access, using a window-consistent relabeling scheme for chunked fine-tuning. On OpenVLA-7B evaluated with LIBERO, vision-only poisoning achieves 98.67%-99.83% attack success rate (ASR) with only 0.31% poisoned episodes while preserving 98.50%-99.17% clean-task retention, and successfully triggers the targeted action within 25 control steps at 500 Hz (0.05 s). Text-only triggers are unstable at low poisoning budgets, and combining text with vision provides no consistent ASR improvement over vision-only attacks. The backdoor remains robust to moderate trigger variations and transfers across evaluation suites (96.27%, 99.09%), whereas text-only largely fails (0.72%). We further validate physical-world feasibility on a 7-DoF Franka arm with pi0-fast, demonstrating non-trivial attack efficacy under camera-relative motion that induces image-plane trigger drift. These results reveal that VLA models can be covertly steered at the granularity of safety-critical actions with minimal poisoning and without observable degradation of nominal performance.