TabVLA: Targeted Backdoor Attacks on Vision-Language-Action Models

📄 arXiv: 2510.10932v1 📥 PDF

作者: Zonghuan Xu, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang

分类: cs.CR, cs.AI, cs.RO

发布日期: 2025-10-13

备注: 8 pages, 8 tables, 1 figure. Under review


💡 一句话要点

TabVLA:针对视觉-语言-动作模型的有目标后门攻击框架

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 后门攻击 有目标攻击 黑盒微调 具身智能

📋 核心要点

  1. 现有VLA后门攻击研究主要集中于无目标攻击,忽略了更具威胁性的有目标操纵场景。
  2. TabVLA框架通过黑盒微调实现有目标后门攻击,并优化中毒数据生成以提高攻击效果。
  3. 实验表明视觉通道是主要攻击面,攻击在触发器变化中保持鲁棒性,并提出了一种基于检测的防御方法。

📝 摘要(中文)

随着视觉-语言-动作(VLA)模型在现实具身智能系统中的日益普及,它们对后门攻击的脆弱性日益增加,构成了严重的安全威胁。植入后门的VLA智能体可能被预先注入的后门隐蔽地触发,从而执行对抗性动作,可能导致系统故障甚至人身伤害。虽然对VLA模型的后门攻击已有研究,但先前的工作仅关注无目标攻击,而忽略了更具实际威胁的有目标操纵场景。本文研究了VLA模型上的有目标后门攻击,并提出了TabVLA,这是一种通过黑盒微调实现此类攻击的新框架。TabVLA探索了两种与部署相关的推理时威胁模型:输入流编辑和场景内触发。它将中毒数据生成公式化为一个优化问题,以提高攻击效果。在LIBERO基准上使用OpenVLA-7B进行的实验表明,视觉通道是主要的攻击面:有目标后门以最小的中毒成功,在触发器设计的变化中保持鲁棒性,并且仅因微调和推理触发器之间的位置不匹配而降低。我们还研究了一种潜在的基于检测的防御TabVLA的方法,该方法从输入流重建潜在的视觉触发器,以标记激活条件后门样本。我们的工作强调了VLA模型对有目标后门操纵的脆弱性,并强调了对更高级防御的需求。

🔬 方法详解

问题定义:论文旨在解决VLA模型在有目标后门攻击下的脆弱性问题。现有的后门攻击方法主要集中在无目标攻击,即攻击者只能控制模型产生错误的行为,而无法指定具体的错误行为。这种攻击的威胁性相对较低,因为攻击者无法利用后门来达到特定的目的。有目标后门攻击则允许攻击者控制模型产生特定的错误行为,例如让机器人执行特定的错误动作,从而造成更大的危害。

核心思路:论文的核心思路是通过黑盒微调的方式,在VLA模型中植入有目标后门。攻击者不需要了解模型的内部结构和参数,只需要通过少量中毒数据对模型进行微调,就可以实现对模型的控制。这种攻击方式更加隐蔽和高效,也更难以防御。

技术框架:TabVLA框架主要包含两个阶段:中毒数据生成阶段和模型微调阶段。在中毒数据生成阶段,攻击者需要设计特定的触发器和目标行为,并生成包含触发器和目标行为的中毒数据。在模型微调阶段,攻击者使用中毒数据对VLA模型进行微调,使模型在检测到触发器时产生目标行为。论文考虑了两种推理时威胁模型:输入流编辑和场景内触发。

关键创新:TabVLA的关键创新在于提出了一种新的有目标后门攻击框架,该框架可以通过黑盒微调的方式,在VLA模型中植入有目标后门。与现有的无目标后门攻击方法相比,TabVLA可以实现对模型的更精确控制,从而造成更大的危害。此外,TabVLA还提出了一种新的中毒数据生成方法,该方法可以有效地提高攻击的成功率。

关键设计:论文将中毒数据生成公式化为一个优化问题,目标是最大化攻击的成功率。攻击者需要设计特定的触发器和目标行为,并生成包含触发器和目标行为的中毒数据。触发器可以是图像中的特定物体或模式,目标行为可以是机器人执行的特定动作。论文还研究了不同的触发器设计和位置对攻击效果的影响。

📊 实验亮点

实验结果表明,TabVLA框架能够成功地在OpenVLA-7B模型中植入有目标后门,并且只需要少量中毒数据即可实现。攻击在触发器设计变化时保持鲁棒性,但对触发器位置的敏感性较高。研究还初步探索了一种基于检测的防御方法,通过重建潜在的视觉触发器来识别后门样本。

🎯 应用场景

该研究成果可应用于评估和提升具身智能系统的安全性,尤其是在机器人、自动驾驶等关键领域。通过模拟和分析有目标后门攻击,可以帮助开发者发现VLA模型中的潜在漏洞,并开发更有效的防御机制,从而确保系统的可靠性和安全性,避免恶意操纵带来的潜在风险。

📄 摘要(原文)

With the growing deployment of Vision-Language-Action (VLA) models in real-world embodied AI systems, their increasing vulnerability to backdoor attacks poses a serious safety threat. A backdoored VLA agent can be covertly triggered by a pre-injected backdoor to execute adversarial actions, potentially causing system failures or even physical harm. Although backdoor attacks on VLA models have been explored, prior work has focused only on untargeted attacks, leaving the more practically threatening scenario of targeted manipulation unexamined. In this paper, we study targeted backdoor attacks on VLA models and introduce TabVLA, a novel framework that enables such attacks via black-box fine-tuning. TabVLA explores two deployment-relevant inference-time threat models: input-stream editing and in-scene triggering. It formulates poisoned data generation as an optimization problem to improve attack effectivess. Experiments with OpenVLA-7B on the LIBERO benchmark reveal that the vision channel is the principal attack surface: targeted backdoors succeed with minimal poisoning, remain robust across variations in trigger design, and are degraded only by positional mismatches between fine-tuning and inference triggers. We also investigate a potential detection-based defense against TabVLA, which reconstructs latent visual triggers from the input stream to flag activation-conditioned backdoor samples. Our work highlights the vulnerability of VLA models to targeted backdoor manipulation and underscores the need for more advanced defenses.