Uncovering Linguistic Fragility in Vision-Language-Action Models via Diversity-Aware Red Teaming

📄 arXiv: 2604.05595v1 📥 PDF

作者: Baoshun Tong, Haoran He, Ling Pan, Yang Liu, Liang Lin

分类: cs.RO, cs.CV

发布日期: 2026-04-07


💡 一句话要点

提出多样性感知的红队测试框架DAERT,揭示VLA模型对语言脆弱性

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 红队测试 强化学习 多样性感知 语言脆弱性 机器人安全 对抗性攻击

📋 核心要点

  1. VLA模型在机器人操作中表现出色,但对语言细微变化的鲁棒性不足,存在安全隐患。
  2. DAERT框架通过评估统一策略,生成多样且有效的对抗性指令,以揭示VLA模型的语言脆弱性。
  3. 实验表明,DAERT能有效降低VLA模型的任务成功率,暴露其安全盲点,具有实际应用价值。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在机器人操作中取得了显著成功。然而,它们对语言细微差别的鲁棒性仍然是一个关键且未被充分探索的安全问题,对现实世界的部署构成了重大安全风险。红队测试,即识别引发灾难性行为的环境场景,是确保具身AI代理安全部署的重要一步。强化学习(RL)已成为一种有前途的自动化红队测试方法,旨在发现这些漏洞。然而,标准的基于RL的对抗方法通常会因其最大化奖励的特性而遭受严重的模式崩溃,这往往会收敛到一组狭窄的、琐碎的或重复的失败模式,无法揭示有意义风险的全面景象。为了弥合这一差距,我们提出了一种新的多样性感知具身红队测试(DAERT)框架,以揭示VLA对语言变化的脆弱性。我们的设计基于评估一个统一策略,该策略能够生成各种具有挑战性的指令,同时确保其攻击有效性,通过物理模拟器中的执行失败来衡量。我们针对两个最先进的VLA模型(包括$π_0$和OpenVLA)在不同的机器人基准上进行了广泛的实验。我们的方法始终如一地发现了范围更广、更有效的对抗性指令,将平均任务成功率从93.33%降低到5.85%,展示了一种可扩展的方法来压力测试VLA代理,并在实际部署之前暴露关键的安全盲点。

🔬 方法详解

问题定义:VLA模型在处理细微的语言变化时表现出脆弱性,容易受到对抗性指令的攻击,导致任务失败。现有的基于强化学习的红队测试方法存在模式崩溃问题,生成的对抗性指令过于单一,无法全面揭示VLA模型的潜在风险。

核心思路:DAERT框架的核心在于生成多样化的对抗性指令,以更全面地评估VLA模型的鲁棒性。通过鼓励生成不同类型的失败模式,避免陷入单一的、琐碎的攻击方式,从而更有效地发现VLA模型的安全盲点。

技术框架:DAERT框架主要包含以下几个模块:1) 统一策略生成器:负责生成多样化的指令;2) VLA模型:作为被攻击的目标;3) 物理模拟器:用于模拟机器人执行指令的环境;4) 评估模块:用于评估指令的攻击效果和多样性。整体流程是,统一策略生成器生成指令,VLA模型在模拟器中执行,评估模块根据执行结果评估指令的有效性和多样性,并反馈给生成器进行优化。

关键创新:DAERT的关键创新在于其多样性感知的红队测试方法。与传统的最大化奖励的强化学习方法不同,DAERT鼓励生成多样化的对抗性指令,从而更全面地评估VLA模型的鲁棒性。这种方法能够发现传统方法难以发现的潜在风险。

关键设计:DAERT使用统一策略生成器,该生成器旨在生成覆盖指令空间的均匀分布的指令。具体实现细节(例如,损失函数,网络结构)在论文中可能没有详细说明,需要查阅原文。但其核心思想是鼓励探索不同的指令,避免陷入局部最优解。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DAERT框架能够显著降低VLA模型的任务成功率。例如,在针对$π_0$和OpenVLA的测试中,DAERT将平均任务成功率从93.33%降低到5.85%。这表明DAERT能够有效地发现VLA模型对语言变化的脆弱性,并生成更具挑战性的对抗性指令。

🎯 应用场景

该研究成果可应用于机器人安全测试、自动驾驶系统验证、智能家居设备漏洞挖掘等领域。通过DAERT框架,可以有效提升VLA模型在实际应用中的安全性和可靠性,降低因语言理解偏差导致的潜在风险,为安全部署具身智能代理提供保障。

📄 摘要(原文)

Vision-Language-Action (VLA) models have achieved remarkable success in robotic manipulation. However, their robustness to linguistic nuances remains a critical, under-explored safety concern, posing a significant safety risk to real-world deployment. Red teaming, or identifying environmental scenarios that elicit catastrophic behaviors, is an important step in ensuring the safe deployment of embodied AI agents. Reinforcement learning (RL) has emerged as a promising approach in automated red teaming that aims to uncover these vulnerabilities. However, standard RL-based adversaries often suffer from severe mode collapse due to their reward-maximizing nature, which tends to converge to a narrow set of trivial or repetitive failure patterns, failing to reveal the comprehensive landscape of meaningful risks. To bridge this gap, we propose a novel \textbf{D}iversity-\textbf{A}ware \textbf{E}mbodied \textbf{R}ed \textbf{T}eaming (\textbf{DAERT}) framework, to expose the vulnerabilities of VLAs against linguistic variations. Our design is based on evaluating a uniform policy, which is able to generate a diverse set of challenging instructions while ensuring its attack effectiveness, measured by execution failures in a physical simulator. We conduct extensive experiments across different robotic benchmarks against two state-of-the-art VLAs, including $π_0$ and OpenVLA. Our method consistently discovers a wider range of more effective adversarial instructions that reduce the average task success rate from 93.33\% to 5.85\%, demonstrating a scalable approach to stress-testing VLA agents and exposing critical safety blind spots before real-world deployment.