Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies

📄 arXiv: 2603.12510v1 📥 PDF

作者: Siddharth Srikanth, Freddie Liang, Sophie Hsu, Varun Bhatt, Shihan Zhao, Henry Chen, Bryon Tjanaka, Minjune Hwang, Akanksha Saran, Daniel Seita, Aaquib Tabrez, Stefanos Nikolaidis

分类: cs.RO, cs.AI, cs.CL

发布日期: 2026-03-12


💡 一句话要点

提出Q-DIG,通过质量多样性提示生成对抗样本,提升VLA机器人策略的鲁棒性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作模型 红队测试 质量多样性 对抗样本生成 机器人鲁棒性

📋 核心要点

  1. VLA机器人对指令措辞敏感,难以预测失败情况,现有方法缺乏有效识别和解决这些脆弱性的手段。
  2. Q-DIG利用质量多样性技术生成多样化的对抗性指令,暴露VLA模型的潜在弱点,实现红队测试。
  3. 实验表明,Q-DIG能发现更多样和有意义的失败模式,微调后VLA机器人的任务成功率显著提升。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在通用机器人系统中具有实现各种视觉-语言任务的巨大潜力。然而,基于VLA的机器人的性能对语言指令的精确措辞高度敏感,并且预测此类机器人何时会失败仍然很困难。为了提高VLA对不同措辞的鲁棒性,我们提出了Q-DIG(用于多样化指令生成的质量多样性),它通过可扩展地识别诱导失败同时保持任务相关的各种自然语言任务描述来进行红队测试。Q-DIG将质量多样性(QD)技术与视觉-语言模型(VLM)集成,以生成广泛的对抗性指令,从而揭示VLA行为中有意义的漏洞。在多个模拟基准测试中的结果表明,与基线方法相比,Q-DIG发现了更多样化和有意义的失败模式,并且在生成的指令上微调VLA提高了任务成功率。此外,用户研究的结果表明,Q-DIG生成的提示被认为比基线的提示更自然和更像人类。最后,Q-DIG提示的真实世界评估显示了与模拟一致的结果,并且在生成的提示上微调VLA进一步提高了未见指令的成功率。总之,这些发现表明Q-DIG是一种有前途的方法,可以识别漏洞并提高基于VLA的机器人的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决视觉-语言-动作(VLA)模型在机器人控制中对自然语言指令的脆弱性问题。现有方法难以预测和应对VLA模型对指令措辞的敏感性,导致在实际应用中容易出现失败。这种脆弱性限制了VLA模型在复杂和动态环境中的可靠性和泛化能力。

核心思路:论文的核心思路是利用质量多样性(Quality Diversity, QD)算法,自动生成多样化的、能够诱导VLA模型失败的自然语言指令。通过分析这些“对抗性”指令,可以发现VLA模型的弱点,并利用这些指令进行微调,从而提高模型的鲁棒性。这种方法模拟了红队测试,旨在主动发现并修复模型的漏洞。

技术框架:Q-DIG框架主要包含以下几个模块:1) VLA模型:作为被测试的目标机器人策略。2) QD算法:负责生成多样化的指令,并根据指令执行结果的“失败程度”和指令的“新颖性”进行评估。3) VLM (Vision-Language Model):用于生成自然语言指令,并确保指令与任务相关。4) 微调模块:使用生成的对抗性指令对VLA模型进行微调,提高其鲁棒性。整个流程迭代进行,不断生成新的对抗性指令,并优化VLA模型。

关键创新:Q-DIG的关键创新在于将质量多样性(QD)算法应用于VLA模型的红队测试。与传统的随机或基于梯度的对抗样本生成方法不同,QD算法能够探索更广泛的指令空间,发现更多样化的失败模式。此外,Q-DIG利用VLM生成自然语言指令,使得生成的指令更贴近人类语言,更具实用价值。

关键设计:Q-DIG的关键设计包括:1) 使用MAP-Elites算法作为QD算法的核心,以最大化指令的多样性和失败程度。2) 设计合适的奖励函数,鼓励生成能够诱导VLA模型失败的指令。3) 使用预训练的VLM(如GPT-3)生成自然语言指令,并使用约束条件确保指令与任务相关。4) 设计有效的微调策略,利用生成的对抗性指令提高VLA模型的鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Q-DIG能够发现比基线方法更多样化和有意义的失败模式。在模拟环境中,使用Q-DIG生成的指令进行微调后,VLA机器人的任务成功率显著提高。用户研究表明,Q-DIG生成的提示更自然和更像人类。真实世界实验结果与模拟结果一致,进一步验证了Q-DIG的有效性。

🎯 应用场景

该研究成果可应用于提升各种VLA机器人的可靠性和安全性,例如自动驾驶、家庭服务机器人、工业自动化等领域。通过主动发现和修复VLA模型的漏洞,可以减少机器人发生意外或错误的风险,提高其在复杂环境中的适应能力。此外,该方法还可以用于评估和比较不同VLA模型的鲁棒性。

📄 摘要(原文)

Vision-Language-Action (VLA) models have significant potential to enable general-purpose robotic systems for a range of vision-language tasks. However, the performance of VLA-based robots is highly sensitive to the precise wording of language instructions, and it remains difficult to predict when such robots will fail. To improve the robustness of VLAs to different wordings, we present Q-DIG (Quality Diversity for Diverse Instruction Generation), which performs red-teaming by scalably identifying diverse natural language task descriptions that induce failures while remaining task-relevant. Q-DIG integrates Quality Diversity (QD) techniques with Vision-Language Models (VLMs) to generate a broad spectrum of adversarial instructions that expose meaningful vulnerabilities in VLA behavior. Our results across multiple simulation benchmarks show that Q-DIG finds more diverse and meaningful failure modes compared to baseline methods, and that fine-tuning VLAs on the generated instructions improves task success rates. Furthermore, results from a user study highlight that Q-DIG generates prompts judged to be more natural and human-like than those from baselines. Finally, real-world evaluations of Q-DIG prompts show results consistent with simulation, and fine-tuning VLAs on the generated prompts further success rates on unseen instructions. Together, these findings suggest that Q-DIG is a promising approach for identifying vulnerabilities and improving the robustness of VLA-based robots. Our anonymous project website is at qdigvla.github.io.