Geometric Red-Teaming for Robotic Manipulation

📄 arXiv: 2509.12379v1 📥 PDF

作者: Divyam Goel, Yufei Wang, Tiancheng Wu, Guixiu Qiao, Pavel Piliptchak, David Held, Zackory Erickson

分类: cs.RO, cs.AI, cs.LG

发布日期: 2025-09-15

备注: Accepted at the 9th Annual Conference on Robot Learning (CoRL 2025, Oral)


💡 一句话要点

提出几何红队(GRT)方法,通过几何扰动自动发现机器人操作策略的脆弱性。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control)

关键词: 机器人操作 鲁棒性评估 红队测试 几何扰动 策略优化

📋 核心要点

  1. 现有机器人操作评估主要依赖于精心设计的测试集,难以发现策略在真实场景变化下的潜在缺陷。
  2. GRT通过引入几何扰动,自动生成导致策略失败的CrashShapes,从而系统性地探测策略的鲁棒性。
  3. 实验表明,GRT能有效发现现有策略的脆弱点,并可通过在CrashShapes上微调显著提升策略的鲁棒性。

📝 摘要(中文)

本文提出了一种名为几何红队(GRT)的红队框架,用于探测机器人操作策略在对象中心几何扰动下的鲁棒性。该方法通过自动生成CrashShapes——结构有效且用户约束的网格变形,来触发预训练操作策略中的灾难性失败。GRT集成了基于雅可比场的变形模型和无梯度、模拟器在环的优化策略。在插入、铰接和抓取任务中,GRT始终如一地发现能够导致策略性能崩溃的变形,揭示了静态基准测试遗漏的脆弱失败模式。通过结合任务级策略rollout和约束感知的形状探索,旨在构建一个通用的框架,用于在机器人操作中进行结构化的、以对象为中心的鲁棒性评估。此外,还展示了在单个CrashShape上进行微调(称为蓝队)可以将这些形状上的任务成功率提高高达60个百分点,同时保持原始对象的性能,证明了红队几何体在有针对性的策略改进中的效用。最后,通过真实的机器人手臂验证了红队和蓝队的结果,观察到模拟的CrashShape将任务成功率从90%降低到低至22.5%,并且蓝队将相应真实世界几何体的性能恢复到高达90%,与模拟结果非常吻合。

🔬 方法详解

问题定义:现有机器人操作策略的评估方法通常使用预定义的、分布内的数据集,这无法充分评估策略在真实世界中可能遇到的各种几何变化下的鲁棒性。因此,需要一种方法能够自动发现并利用这些几何弱点,从而提高策略的可靠性。

核心思路:本文的核心思路是通过对物体几何形状进行有针对性的扰动,生成能够导致机器人操作策略失败的“CrashShapes”。通过优化这些扰动,可以系统地发现策略的脆弱性,并利用这些信息来改进策略的鲁棒性。这种方法模拟了“红队”攻击,旨在发现系统的弱点。

技术框架:GRT框架包含以下几个主要模块:1) 基于雅可比场的变形模型,用于生成结构有效的几何变形;2) 无梯度优化策略,用于在模拟环境中搜索能够导致策略失败的CrashShapes;3) 任务级策略rollout,用于评估策略在变形物体上的性能;4) 约束感知模块,用于确保生成的变形满足用户定义的约束条件。整个流程是一个模拟器在环的优化过程,不断迭代生成更有效的CrashShapes。

关键创新:GRT最重要的创新点在于其自动化的几何红队测试方法。与传统的依赖人工设计的测试用例不同,GRT能够通过优化算法自动发现策略的弱点,从而更全面地评估策略的鲁棒性。此外,GRT还提供了一种“蓝队”防御机制,即通过在CrashShapes上进行微调来提高策略的鲁棒性。

关键设计:GRT的关键设计包括:1) 使用雅可比场进行网格变形,保证变形的结构有效性;2) 使用CMA-ES等无梯度优化算法,避免了对策略梯度的依赖;3) 定义了任务成功率作为优化目标,引导算法搜索能够导致任务失败的变形;4) 引入用户定义的约束条件,例如变形的最大幅度,以保证变形的合理性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GRT能够有效地发现现有策略的脆弱性。例如,在真实机器人手臂上的实验中,模拟的CrashShapes将任务成功率从90%降低到低至22.5%。通过在CrashShapes上进行微调(蓝队),可以将任务成功率恢复到高达90%,与模拟结果非常吻合。这表明GRT不仅能够有效地发现策略的弱点,而且能够指导策略的改进。

🎯 应用场景

该研究成果可应用于各种机器人操作任务的鲁棒性评估和策略改进,例如工业装配、医疗手术、家庭服务等。通过GRT,可以更有效地发现和修复机器人策略的潜在缺陷,提高机器人在复杂环境中的可靠性和安全性。此外,该方法还可以用于生成更具挑战性的训练数据,从而提高策略的泛化能力。

📄 摘要(原文)

Standard evaluation protocols in robotic manipulation typically assess policy performance over curated, in-distribution test sets, offering limited insight into how systems fail under plausible variation. We introduce Geometric Red-Teaming (GRT), a red-teaming framework that probes robustness through object-centric geometric perturbations, automatically generating CrashShapes -- structurally valid, user-constrained mesh deformations that trigger catastrophic failures in pre-trained manipulation policies. The method integrates a Jacobian field-based deformation model with a gradient-free, simulator-in-the-loop optimization strategy. Across insertion, articulation, and grasping tasks, GRT consistently discovers deformations that collapse policy performance, revealing brittle failure modes missed by static benchmarks. By combining task-level policy rollouts with constraint-aware shape exploration, we aim to build a general purpose framework for structured, object-centric robustness evaluation in robotic manipulation. We additionally show that fine-tuning on individual CrashShapes, a process we refer to as blue-teaming, improves task success by up to 60 percentage points on those shapes, while preserving performance on the original object, demonstrating the utility of red-teamed geometries for targeted policy refinement. Finally, we validate both red-teaming and blue-teaming results with a real robotic arm, observing that simulated CrashShapes reduce task success from 90% to as low as 22.5%, and that blue-teaming recovers performance to up to 90% on the corresponding real-world geometry -- closely matching simulation outcomes. Videos and code can be found on our project website: https://georedteam.github.io/ .