Goal-oriented Backdoor Attack against Vision-Language-Action Models via Physical Objects
作者: Zirun Zhou, Zhengyang Xiao, Haochuan Xu, Jing Sun, Di Wang, Jingfeng Zhang
分类: cs.CR, cs.CV, cs.LG
发布日期: 2025-10-10
🔗 代码/项目: PROJECT_PAGE
💡 一句话要点
提出面向视觉-语言-动作模型的物理对象后门攻击GoBA,实现目标导向的恶意行为。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 后门攻击 视觉-语言-动作模型 物理对象触发 目标导向攻击 具身智能 安全漏洞 对抗性攻击
📋 核心要点
- 现有的视觉-语言-动作模型易受后门攻击,但现有攻击通常依赖白盒访问,且仅导致任务失败,缺乏目标导向性。
- 本文提出GoBA,通过在训练数据中注入物理对象作为触发器,使VLA模型在特定触发下执行预定义的目标导向动作。
- 实验表明,GoBA在物理触发器存在时,能以97%的成功率使VLA模型实现后门目标,且不影响正常输入的性能。
📝 摘要(中文)
视觉-语言-动作(VLA)模型在具身智能领域取得了显著进展,使机器人能够遵循自然语言指令并执行各种任务。然而,它们对未经筛选的训练数据集的依赖引发了严重的安全问题。现有的VLA后门攻击大多假设白盒访问,并导致任务失败,而不是强制执行特定操作。本文揭示了一种更实际的威胁:攻击者可以通过简单地将物理对象作为触发器注入到训练数据集中来操纵VLA。我们提出了目标导向的后门攻击(GoBA),其中VLA在没有物理触发器的情况下表现正常,但在存在物理触发器的情况下执行预定义的、目标导向的动作。具体来说,基于流行的VLA基准LIBERO,我们引入了BadLIBERO,它结合了各种物理触发器和目标导向的后门动作。此外,我们提出了一个三级评估,将GoBA下受害者VLA的行为分为三个状态:无事可做、尝试去做和成功去做。实验表明,当物理触发器存在时,GoBA使受害者VLA能够在97%的输入中成功实现后门目标,同时对干净输入的性能没有造成任何降低。最后,通过调查与GoBA相关的因素,我们发现动作轨迹和触发器颜色显著影响攻击性能,而触发器大小的影响出乎意料地小。代码和BadLIBERO数据集可通过项目页面https://goba-attack.github.io/访问。
🔬 方法详解
问题定义:论文旨在解决视觉-语言-动作(VLA)模型中存在的安全漏洞问题。现有的后门攻击方法通常需要白盒访问权限,并且攻击效果通常是导致模型失效,而无法控制模型执行特定的恶意行为。因此,如何设计一种更隐蔽、更具目标性的后门攻击,是本文要解决的核心问题。
核心思路:论文的核心思路是利用物理对象作为触发器,通过在训练数据中注入带有特定物理对象的图像,使VLA模型在检测到这些对象时,执行预先设定的目标导向动作。这种方法的优势在于,它不需要白盒访问权限,并且攻击效果更具可控性,能够实现特定的恶意目标。
技术框架:GoBA攻击框架主要包含以下几个阶段:1) 数据集准备:构建包含正常数据和被污染数据的训练集,其中被污染数据包含特定的物理对象触发器,并与目标导向的后门动作相关联。2) 模型训练:使用混合数据集训练VLA模型。3) 攻击评估:设计三级评估体系,评估模型在遇到触发器时的行为,分为“无事可做”、“尝试去做”和“成功去做”三个状态。4) 因素分析:分析不同因素(如触发器颜色、大小、动作轨迹等)对攻击效果的影响。
关键创新:GoBA的关键创新在于:1) 提出了基于物理对象的后门攻击方法,更贴近实际应用场景。2) 实现了目标导向的后门攻击,能够控制模型执行特定的恶意行为。3) 设计了三级评估体系,更全面地评估了攻击效果。
关键设计:在BadLIBERO数据集中,使用了多种物理对象作为触发器,例如不同颜色和形状的物体。后门动作的设计与LIBERO数据集中的任务相关,例如,在“打开抽屉”的任务中,后门动作可能是“将抽屉里的东西扔掉”。损失函数方面,可能使用了交叉熵损失函数来训练模型,使其能够正确识别触发器并执行相应的后门动作。具体网络结构未知,但推测使用了常见的视觉和语言特征提取模块,以及动作预测模块。
📊 实验亮点
实验结果表明,GoBA攻击在物理触发器存在的情况下,能够以97%的成功率使VLA模型实现后门目标,同时对干净输入的性能没有造成任何降低。此外,研究还发现动作轨迹和触发器颜色对攻击性能有显著影响,而触发器大小的影响较小。这些发现为设计更有效的后门攻击和防御策略提供了重要参考。
🎯 应用场景
该研究成果可应用于评估和增强具身智能系统的安全性,例如机器人助手、自动驾驶汽车等。通过模拟真实的物理对象攻击,可以帮助开发者发现VLA模型中的潜在漏洞,并开发相应的防御机制,提高系统的鲁棒性和可靠性。此外,该研究也提醒人们关注AI系统在实际部署中可能面临的安全风险。
📄 摘要(原文)
Recent advances in vision-language-action (VLA) models have greatly improved embodied AI, enabling robots to follow natural language instructions and perform diverse tasks. However, their reliance on uncurated training datasets raises serious security concerns. Existing backdoor attacks on VLAs mostly assume white-box access and result in task failures instead of enforcing specific actions. In this work, we reveal a more practical threat: attackers can manipulate VLAs by simply injecting physical objects as triggers into the training dataset. We propose goal-oriented backdoor attacks (GoBA), where the VLA behaves normally in the absence of physical triggers but executes predefined and goal-oriented actions in the presence of physical triggers. Specifically, based on a popular VLA benchmark LIBERO, we introduce BadLIBERO that incorporates diverse physical triggers and goal-oriented backdoor actions. In addition, we propose a three-level evaluation that categorizes the victim VLA's actions under GoBA into three states: nothing to do, try to do, and success to do. Experiments show that GoBA enables the victim VLA to successfully achieve the backdoor goal in 97 percentage of inputs when the physical trigger is present, while causing zero performance degradation on clean inputs. Finally, by investigating factors related to GoBA, we find that the action trajectory and trigger color significantly influence attack performance, while trigger size has surprisingly little effect. The code and BadLIBERO dataset are accessible via the project page at https://goba-attack.github.io/.