DropVLA: An Action-Level Backdoor Attack on Vision--Language--Action Models

作者: Zonghuan Xu, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang

分类: cs.CR, cs.AI, cs.RO

发布日期: 2026-02-28

💡 一句话要点

提出DropVLA，实现对Vision-Language-Action模型细粒度动作级后门攻击

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: Vision-Language-Action模型 后门攻击 动作级控制 数据中毒 机器人控制

📋 核心要点

现有VLA后门攻击主要集中于非目标攻击或任务级劫持，缺乏对单个动作的细粒度控制。
DropVLA通过窗口一致重标记方案和分块微调，在有限数据中毒条件下实现动作级别的后门攻击。
实验表明，DropVLA在保持任务性能的同时，能以高成功率触发目标动作，且对触发器变化具有鲁棒性。

📝 摘要（中文）

Vision-Language-Action (VLA) 模型将多模态感知和语言指令映射到可执行的机器人动作，因此极易受到行为后门操纵的影响：在训练期间引入的隐藏触发器会导致意外的物理动作，同时保持名义任务的性能完好无损。先前关于VLA后门的工作主要研究非目标攻击或任务级劫持，而对单个动作的细粒度控制在很大程度上未被探索。本文提出了DropVLA，一种动作级后门攻击，它强制可重用的动作原语（例如，open_gripper）在攻击者选择的决策点执行，该攻击在具有有限数据中毒访问的真实pipeline-black-box设置下，使用用于分块微调的窗口一致重标记方案。在用LIBERO评估的OpenVLA-7B上，仅视觉中毒实现了98.67%-99.83%的攻击成功率（ASR），仅使用0.31%的中毒episode，同时保留了98.50%-99.17%的clean-task retention，并在500 Hz（0.05 s）的25个控制步骤内成功触发了目标动作。纯文本触发器在低中毒预算下不稳定，并且将文本与视觉结合使用并不能始终如一地提高视觉攻击的ASR。后门对于适度的触发器变化保持鲁棒性，并且可以跨评估套件转移（96.27%，99.09%），而纯文本在很大程度上失败（0.72%）。我们进一步在具有pi0-fast的7-DoF Franka机械臂上验证了物理世界的可行性，证明了在相机相对运动下非平凡的攻击效果，该运动会引起图像平面触发器漂移。这些结果表明，VLA模型可以在安全关键动作的粒度上被秘密操纵，只需极少的投毒，且不会观察到名义性能的下降。

🔬 方法详解

问题定义：VLA模型容易受到后门攻击，攻击者可以通过在训练数据中引入恶意触发器，控制模型在特定情况下执行非预期动作。现有方法主要关注任务级别的攻击，即控制整个任务的执行结果，而缺乏对单个动作的精细控制。这种粗粒度的攻击方式容易被检测，且无法实现更隐蔽和精确的操纵。

核心思路：DropVLA的核心思路是在训练数据中引入特定的视觉或文本触发器，当模型在推理过程中检测到这些触发器时，就会强制执行攻击者预先设定的目标动作。为了保证攻击的隐蔽性，DropVLA采用了一种窗口一致的重标记方案，确保在触发器出现的时间窗口内，模型学习到执行目标动作的概率更高。

技术框架：DropVLA的攻击流程主要包括以下几个步骤：1) 选择目标动作：攻击者首先确定要控制的目标动作，例如打开夹爪（open_gripper）。2) 注入触发器：在训练数据中，攻击者在特定的视觉或文本输入中插入触发器。3) 窗口一致重标记：对于包含触发器的训练样本，在触发器出现的时间窗口内，将对应的动作标签修改为目标动作。4) 分块微调：使用中毒数据对VLA模型进行微调，使模型学习到触发器与目标动作之间的关联。

关键创新：DropVLA的关键创新在于实现了动作级别的后门攻击，能够精确控制VLA模型在特定时刻执行特定的动作。与现有方法相比，DropVLA的攻击粒度更细，隐蔽性更强，更难被检测。此外，DropVLA还提出了一种窗口一致的重标记方案，保证了攻击的稳定性和可靠性。

关键设计：DropVLA的关键设计包括：1) 触发器的选择：触发器需要足够隐蔽，不易被人类察觉，同时又能够被模型有效识别。2) 窗口大小的设置：窗口大小需要根据具体任务和动作的持续时间进行调整，以保证目标动作能够被完整执行。3) 中毒率的控制：中毒率需要控制在一个较低的水平，以避免对模型的整体性能产生显著影响。

📊 实验亮点

在OpenVLA-7B模型上，仅使用0.31%的中毒数据，DropVLA实现了98.67%-99.83%的攻击成功率，同时保持了98.50%-99.17%的clean-task retention。该后门对触发器变化具有鲁棒性，并且可以跨评估套件转移（96.27%，99.09%）。在真实的Franka机械臂上，DropVLA也验证了物理世界的可行性。

🎯 应用场景

DropVLA的研究成果可应用于评估和增强VLA模型的安全性，尤其是在机器人控制、自动驾驶等安全攸关领域。通过模拟和分析后门攻击，可以发现VLA模型中的潜在漏洞，并开发相应的防御机制，提高系统的鲁棒性和可靠性。此外，该研究也为开发更安全的VLA模型提供了新的思路和方法。

📄 摘要（原文）

Vision-Language-Action (VLA) models map multimodal perception and language instructions to executable robot actions, making them particularly vulnerable to behavioral backdoor manipulation: a hidden trigger introduced during training can induce unintended physical actions while nominal task performance remains intact. Prior work on VLA backdoors primarily studies untargeted attacks or task-level hijacking, leaving fine-grained control over individual actions largely unexplored. In this work, we present DropVLA, an action-level backdoor attack that forces a reusable action primitive (e.g., open_gripper) to execute at attacker-chosen decision points under a realistic pipeline-black-box setting with limited data-poisoning access, using a window-consistent relabeling scheme for chunked fine-tuning. On OpenVLA-7B evaluated with LIBERO, vision-only poisoning achieves 98.67%-99.83% attack success rate (ASR) with only 0.31% poisoned episodes while preserving 98.50%-99.17% clean-task retention, and successfully triggers the targeted action within 25 control steps at 500 Hz (0.05 s). Text-only triggers are unstable at low poisoning budgets, and combining text with vision provides no consistent ASR improvement over vision-only attacks. The backdoor remains robust to moderate trigger variations and transfers across evaluation suites (96.27%, 99.09%), whereas text-only largely fails (0.72%). We further validate physical-world feasibility on a 7-DoF Franka arm with pi0-fast, demonstrating non-trivial attack efficacy under camera-relative motion that induces image-plane trigger drift. These results reveal that VLA models can be covertly steered at the granularity of safety-critical actions with minimal poisoning and without observable degradation of nominal performance.

DropVLA: An Action-Level Backdoor Attack on Vision--Language--Action Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理