SABER: A Stealthy Agentic Black-Box Attack Framework for Vision-Language-Action Models

📄 arXiv: 2603.24935v1 📥 PDF

作者: Xiyang Wu, Guangyao Shi, Qingzi Wang, Zongxia Li, Amrit Singh Bedi, Dinesh Manocha

分类: cs.RO

发布日期: 2026-03-26


💡 一句话要点

SABER:一种隐蔽的、基于智能体的黑盒攻击框架,用于视觉-语言-动作模型

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 黑盒攻击 对抗性攻击 强化学习 机器人鲁棒性

📋 核心要点

  1. VLA模型易受指令通道的攻击,微小文本扰动即可改变机器人行为,现有方法缺乏有效的黑盒攻击手段。
  2. SABER提出了一种以智能体为中心的黑盒攻击框架,通过GRPO训练的ReAct攻击者生成对抗性指令编辑。
  3. 实验表明,SABER能显著降低任务成功率,增加动作序列长度和约束违反,同时减少工具调用和字符编辑。

📝 摘要(中文)

视觉-语言-动作(VLA)模型使机器人能够遵循基于视觉观察的自然语言指令,但指令通道也引入了一个关键漏洞:微小的文本扰动会改变下游机器人的行为。因此,系统的鲁棒性评估需要一个黑盒攻击者,该攻击者可以在不同的VLA模型中生成最小但有效的指令编辑。为此,我们提出了SABER,一种以智能体为中心的方法,用于在有界编辑预算下自动生成针对VLA模型的基于指令的对抗性攻击。SABER使用GRPO训练的ReAct攻击者,在有界编辑预算下,使用字符、token和prompt级别的工具生成小的、合理的对抗性指令编辑,从而导致目标行为退化,包括任务失败、不必要的长时间执行和约束违反。在LIBERO基准测试中,针对六个最先进的VLA模型,SABER将任务成功率降低了20.6%,将动作序列长度增加了55%,并将约束违反增加了33%,同时比强大的基于GPT的基线减少了21.1%的工具调用和54.7%的字符编辑。这些结果表明,小的、合理的指令编辑足以显著降低机器人执行的性能,并且基于智能体的黑盒流水线为机器人基础模型的红队测试提供了一种实用、可扩展和自适应的方法。

🔬 方法详解

问题定义:论文旨在解决视觉-语言-动作(VLA)模型在面对指令攻击时的脆弱性问题。现有的VLA模型容易受到指令中微小扰动的影响,导致机器人行为异常,甚至任务失败。现有的攻击方法通常依赖于白盒访问或需要大量的查询,效率较低,难以应用于实际场景。因此,需要一种高效、隐蔽的黑盒攻击方法,能够在有限的编辑预算下,显著降低VLA模型的性能。

核心思路:SABER的核心思路是构建一个基于智能体的黑盒攻击框架,该框架能够模拟攻击者的行为,通过与VLA模型交互,学习生成对抗性的指令编辑。该框架利用强化学习训练一个ReAct攻击者,使其能够在有限的编辑预算下,生成小的、合理的指令扰动,从而最大程度地降低VLA模型的性能。这种方法的核心在于将攻击过程建模为一个智能体的决策过程,通过学习优化攻击策略,提高攻击效率和隐蔽性。

技术框架:SABER框架主要包含以下几个模块:1) VLA模型:作为被攻击的目标,接收指令并执行相应的动作。2) ReAct攻击者:基于GRPO(Gradient-free Policy Optimization)训练的强化学习智能体,负责生成对抗性指令编辑。3) 环境:模拟机器人执行任务的环境,提供视觉观察和奖励信号。4) 编辑工具:提供字符、token和prompt级别的编辑操作,用于修改指令。整个流程如下:攻击者观察环境,根据当前状态和VLA模型的反馈,选择一个编辑工具修改指令,然后将修改后的指令发送给VLA模型。VLA模型执行动作并返回奖励信号,攻击者根据奖励信号更新策略,不断优化攻击效果。

关键创新:SABER的关键创新在于:1) 提出了一种以智能体为中心的黑盒攻击框架,能够自动学习生成对抗性指令编辑。2) 利用GRPO训练ReAct攻击者,使其能够在有限的编辑预算下,生成小的、合理的指令扰动。3) 结合字符、token和prompt级别的编辑工具,提高了攻击的灵活性和隐蔽性。与现有方法相比,SABER不需要白盒访问,查询效率更高,攻击效果更好。

关键设计:SABER的关键设计包括:1) 使用GRPO作为强化学习算法,优化ReAct攻击者的策略。GRPO是一种无梯度策略优化算法,适用于黑盒攻击场景。2) 设计了合适的奖励函数,鼓励攻击者生成能够降低VLA模型性能的指令编辑。奖励函数综合考虑了任务成功率、动作序列长度和约束违反等因素。3) 限制编辑预算,防止攻击者生成过于明显的扰动,提高攻击的隐蔽性。4) 采用了多种编辑工具,包括字符替换、token插入和prompt修改等,增加了攻击的多样性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

SABER在LIBERO基准测试中,针对六个最先进的VLA模型进行了评估。实验结果表明,SABER将任务成功率降低了20.6%,将动作序列长度增加了55%,并将约束违反增加了33%,同时比强大的基于GPT的基线减少了21.1%的工具调用和54.7%的字符编辑。这些结果表明,SABER能够有效地攻击VLA模型,并且具有较高的效率和隐蔽性。

🎯 应用场景

SABER可用于评估和提高VLA模型在实际应用中的鲁棒性。通过模拟恶意攻击,可以发现VLA模型的潜在漏洞,并采取相应的防御措施。该研究对于开发安全可靠的机器人系统具有重要意义,尤其是在自动驾驶、智能家居和工业自动化等领域。

📄 摘要(原文)

Vision-language-action (VLA) models enable robots to follow natural-language instructions grounded in visual observations, but the instruction channel also introduces a critical vulnerability: small textual perturbations can alter downstream robot behavior. Systematic robustness evaluation therefore requires a black-box attacker that can generate minimal yet effective instruction edits across diverse VLA models. To this end, we present SABER, an agent-centric approach for automatically generating instruction-based adversarial attacks on VLA models under bounded edit budgets. SABER uses a GRPO-trained ReAct attacker to generate small, plausible adversarial instruction edits using character-, token-, and prompt-level tools under a bounded edit budget that induces targeted behavioral degradation, including task failure, unnecessarily long execution, and increased constraint violations. On the LIBERO benchmark across six state-of-the-art VLA models, SABER reduces task success by 20.6%, increases action-sequence length by 55%, and raises constraint violations by 33%, while requiring 21.1% fewer tool calls and 54.7% fewer character edits than strong GPT-based baselines. These results show that small, plausible instruction edits are sufficient to substantially degrade robot execution, and that an agentic black-box pipeline offers a practical, scalable, and adaptive approach for red-teaming robotic foundation models.