Red-Teaming Vision-Language-Action Models via Quality Diversity Prompt Generation for Robust Robot Policies

📄 arXiv: 2603.12510 📥 PDF

作者: Siddharth Srikanth, Freddie Liang, Ya-Chuan Hsu, Varun Bhatt, Shihan Zhao, Henry Chen, Bryon Tjanaka, Minjune Hwang, Akanksha Saran, Daniel Seita, Aaquib Tabrez, Stefanos Nikolaidis

分类: cs.RO, cs.AI, cs.CL

发布日期: 2026-04-07


💡 一句话要点

提出Q-DIG,利用质量多样性优化进行红队测试,提升VLA机器人策略的鲁棒性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作模型 红队测试 质量多样性 对抗性指令生成 机器人策略

📋 核心要点

  1. VLA机器人对指令措辞敏感,难以预测何时失效,现有方法缺乏有效的漏洞挖掘手段。
  2. Q-DIG利用质量多样性优化,生成多样且任务相关的对抗性指令,暴露VLA模型的弱点。
  3. 实验表明,Q-DIG能发现更多样化的失败模式,微调后可显著提升VLA机器人的任务成功率。

📝 摘要(中文)

视觉-语言-动作(VLA)模型在通用机器人系统中具有巨大潜力,能够处理各种视觉-语言任务。然而,基于VLA的机器人的性能对语言指令的措辞非常敏感,并且难以预测此类机器人何时会失效。我们提出质量多样性(QD)优化作为红队测试具身模型的一个自然框架,并提出了Q-DIG(用于多样化指令生成的质量多样性),它通过可扩展地识别多样化的、自然的语言任务描述来诱导失败,同时保持任务相关性,从而执行红队测试。Q-DIG将QD技术与视觉-语言模型(VLM)集成,以生成广泛的对抗性指令,从而暴露VLA行为中有意义的漏洞。在多个模拟基准测试中,我们的结果表明,与基线方法相比,Q-DIG发现了更多样化和有意义的失败模式,并且在生成的指令上微调VLA可以提高任务成功率。此外,用户研究的结果表明,Q-DIG生成的提示被认为比基线方法更自然和更像人类。最后,Q-DIG提示的真实世界评估显示了与模拟一致的结果,并且在生成的提示上微调VLA进一步提高了未见指令的成功率。总之,这些发现表明Q-DIG是一种有前途的方法,可以识别漏洞并提高基于VLA的机器人的鲁棒性。

🔬 方法详解

问题定义:论文旨在解决VLA模型在实际应用中对指令措辞过于敏感,鲁棒性差的问题。现有方法难以有效发现VLA模型的潜在漏洞,导致其在面对复杂或模糊指令时容易失败。因此,如何系统性地识别并缓解VLA模型的脆弱性是本研究的核心问题。

核心思路:论文的核心思路是利用质量多样性(Quality Diversity, QD)优化算法,自动生成一系列具有挑战性的、多样化的自然语言指令,这些指令能够有效地诱导VLA模型产生错误行为。通过分析这些错误行为,可以更好地理解VLA模型的弱点,并利用这些信息来改进模型的鲁棒性。

技术框架:Q-DIG框架主要包含以下几个关键模块:1) 指令生成器:基于视觉-语言模型(VLM),生成候选的自然语言指令。2) 质量评估器:评估生成的指令是否能够成功诱导VLA模型产生错误行为,并衡量指令的任务相关性。3) 多样性维护器:利用QD算法,维护一个包含多样化指令的档案,确保生成的指令覆盖不同的失败模式。4) VLA模型:待测试的视觉-语言-动作模型,接收指令并执行相应的动作。整个流程通过迭代优化,不断生成更具挑战性的指令,并利用这些指令来训练和改进VLA模型。

关键创新:Q-DIG的关键创新在于将质量多样性优化算法应用于VLA模型的红队测试。与传统的随机测试或人工设计的对抗性指令相比,Q-DIG能够自动生成多样化的、任务相关的、且能够有效诱导失败的指令,从而更全面地评估VLA模型的鲁棒性。此外,Q-DIG还结合了视觉-语言模型,使得生成的指令更自然、更像人类语言。

关键设计:Q-DIG的关键设计包括:1) 使用CLIP等预训练VLM作为指令生成器的基础模型,保证生成指令的自然性和流畅性。2) 设计合适的奖励函数,鼓励生成既能诱导失败,又保持任务相关性的指令。3) 采用MAP-Elites等QD算法,维护一个包含多样化指令的档案,并利用档案中的指令来指导后续的指令生成过程。4) 通过微调VLA模型,使其在生成的对抗性指令上表现更好,从而提高其整体鲁棒性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,Q-DIG在多个模拟环境中能够发现比基线方法更多样化和有意义的失败模式。用户研究表明,Q-DIG生成的提示更自然、更像人类。在真实世界实验中,Q-DIG生成的提示也表现出与模拟环境一致的效果,并且通过在生成的提示上微调VLA,任务成功率得到了进一步提高。

🎯 应用场景

该研究成果可广泛应用于机器人、自动驾驶等领域,提升VLA模型在复杂环境下的可靠性和安全性。通过红队测试发现潜在漏洞,并利用对抗训练增强模型鲁棒性,可有效降低实际应用中因指令模糊或错误导致的风险,加速VLA技术在工业、服务等行业的落地。

📄 摘要(原文)

Vision-Language-Action (VLA) models have significant potential to enable general-purpose robotic systems for a range of vision-language tasks. However, the performance of VLA-based robots is highly sensitive to the precise wording of language instructions, and it remains difficult to predict when such robots will fail. We propose Quality Diversity (QD) optimization as a natural framework for red-teaming embodied models, and present Q-DIG (Quality Diversity for Diverse Instruction Generation), which performs red-teaming by scalably identifying diverse, natural language task descriptions that induce failures while remaining task-relevant. Q-DIG integrates QD techniques with Vision-Language Models (VLMs) to generate a broad spectrum of adversarial instructions that expose meaningful vulnerabilities in VLA behavior. Our results across multiple simulation benchmarks show that Q-DIG finds more diverse and meaningful failure modes compared to baseline methods, and that fine-tuning VLAs on the generated instructions improves task success rates. Furthermore, results from a user study highlight that Q-DIG generates prompts judged to be more natural and human-like than those from baselines. Finally, real-world evaluations of Q-DIG prompts show results consistent with simulation, and fine-tuning VLAs on the generated prompts further success rates on unseen instructions. Together, these findings suggest that Q-DIG is a promising approach for identifying vulnerabilities and improving the robustness of VLA-based robots. Our anonymous project website is atthis http URL.