TabVLA: Targeted Backdoor Attacks on Vision-Language-Action Models

📄 arXiv: 2510.10932v1 📥 PDF

作者: Zonghuan Xu, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang

分类: cs.CR, cs.AI, cs.RO

发布日期: 2025-10-13

备注: 8 pages, 8 tables, 1 figure. Under review


💡 一句话要点

TabVLA:针对视觉-语言-动作模型的有目标后门攻击

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 后门攻击 有目标攻击 黑盒微调 具身智能

📋 核心要点

  1. 现有VLA模型易受后门攻击,但现有研究主要集中于无目标攻击,忽略了更危险的有目标操纵场景。
  2. TabVLA框架通过黑盒微调实现对VLA模型的有目标后门攻击,并针对输入流编辑和场景内触发两种威胁模型。
  3. 实验表明视觉通道是主要攻击面,攻击在最小中毒比例下成功,且对触发器设计具有鲁棒性,但位置不匹配会降低攻击效果。

📝 摘要(中文)

随着视觉-语言-动作(VLA)模型在现实具身智能系统中的日益普及,它们对后门攻击的脆弱性日益增加,构成了严重的安全威胁。植入后门的VLA智能体可能被预先注入的后门隐蔽地触发,从而执行对抗性动作,可能导致系统故障甚至人身伤害。虽然之前已经探索了对VLA模型的后门攻击,但之前的工作只关注于无目标攻击,而忽略了更具实际威胁的有目标操纵场景。在本文中,我们研究了对VLA模型的有目标后门攻击,并引入了TabVLA,这是一个通过黑盒微调实现此类攻击的新框架。TabVLA探索了两种与部署相关的推理时威胁模型:输入流编辑和场景内触发。它将中毒数据生成公式化为一个优化问题,以提高攻击效果。在LIBERO基准上使用OpenVLA-7B进行的实验表明,视觉通道是主要的攻击面:有目标后门以最小的中毒成功,在触发器设计的变化中保持鲁棒性,并且仅因微调和推理触发器之间的位置不匹配而降低。我们还研究了一种潜在的基于检测的防御方法来对抗TabVLA,该方法从输入流重建潜在的视觉触发器,以标记激活条件后门样本。我们的工作强调了VLA模型对有目标后门操纵的脆弱性,并强调了对更高级防御的需求。

🔬 方法详解

问题定义:论文旨在解决VLA模型在现实部署中面临的有目标后门攻击问题。现有后门攻击方法主要关注无目标攻击,即触发后门后,模型会产生任意的错误行为。而有目标攻击则要求模型在触发后门后,执行特定的、预先设定的错误行为,这在实际应用中更具威胁性。

核心思路:论文的核心思路是通过黑盒微调的方式,在VLA模型中植入有目标的后门。具体来说,通过构造包含触发器的中毒数据,并利用这些数据对VLA模型进行微调,使得模型在遇到触发器时,会执行攻击者预先设定的目标动作。这种方法不需要了解模型的内部结构,只需要能够访问模型的输入输出接口即可。

技术框架:TabVLA框架主要包含两个阶段:中毒数据生成和模型微调。在中毒数据生成阶段,首先定义一个目标动作,然后设计一个触发器。接着,通过优化算法生成包含触发器的中毒数据,使得模型在这些数据上进行训练后,能够将触发器与目标动作关联起来。在模型微调阶段,使用生成的中毒数据对VLA模型进行微调,从而将后门植入到模型中。

关键创新:TabVLA的关键创新在于它提出了一种针对VLA模型的有目标后门攻击方法,并探索了两种实际的威胁模型:输入流编辑和场景内触发。此外,论文还提出了一种基于优化的中毒数据生成方法,能够有效地提高攻击的成功率。

关键设计:在中毒数据生成阶段,论文使用了一种基于梯度的优化算法来生成中毒数据。具体来说,首先随机生成一些包含触发器的图像,然后计算模型在这些图像上的输出与目标动作之间的损失。接着,利用梯度下降算法来调整图像,使得模型的输出越来越接近目标动作。在模型微调阶段,论文使用了一种混合训练策略,即同时使用干净数据和中毒数据进行训练,以保证模型的性能不会受到太大的影响。

📊 实验亮点

实验结果表明,TabVLA能够在OpenVLA-7B模型上成功植入有目标后门,且攻击成功率较高。在LIBERO基准测试中,即使使用最小的中毒比例,攻击仍然有效。此外,攻击对触发器设计的变化具有鲁棒性,但位置不匹配会降低攻击效果。研究还初步探索了一种基于检测的防御方法,但效果有限,表明需要更高级的防御手段。

🎯 应用场景

该研究成果可应用于评估和提升具身智能系统的安全性。通过模拟有目标后门攻击,可以帮助研究人员发现VLA模型中的潜在漏洞,并开发相应的防御机制。此外,该研究还可以用于指导VLA模型的安全部署,例如,在部署前对模型进行后门检测,或者在运行时监控模型的行为,及时发现异常情况。

📄 摘要(原文)

With the growing deployment of Vision-Language-Action (VLA) models in real-world embodied AI systems, their increasing vulnerability to backdoor attacks poses a serious safety threat. A backdoored VLA agent can be covertly triggered by a pre-injected backdoor to execute adversarial actions, potentially causing system failures or even physical harm. Although backdoor attacks on VLA models have been explored, prior work has focused only on untargeted attacks, leaving the more practically threatening scenario of targeted manipulation unexamined. In this paper, we study targeted backdoor attacks on VLA models and introduce TabVLA, a novel framework that enables such attacks via black-box fine-tuning. TabVLA explores two deployment-relevant inference-time threat models: input-stream editing and in-scene triggering. It formulates poisoned data generation as an optimization problem to improve attack effectivess. Experiments with OpenVLA-7B on the LIBERO benchmark reveal that the vision channel is the principal attack surface: targeted backdoors succeed with minimal poisoning, remain robust across variations in trigger design, and are degraded only by positional mismatches between fine-tuning and inference triggers. We also investigate a potential detection-based defense against TabVLA, which reconstructs latent visual triggers from the input stream to flag activation-conditioned backdoor samples. Our work highlights the vulnerability of VLA models to targeted backdoor manipulation and underscores the need for more advanced defenses.