RoboWits: Unexpected Challenges for Robotic Creative Problem Solving

📄 arXiv: 2605.30326v1 📥 PDF

作者: Chunru Lin, Hongxin Zhang, Fenghao Yu, Zhehuan Chen, Thomas L. Griffiths, Yejin Choi, David Held, Chuang Gan

分类: cs.RO, cs.AI

发布日期: 2026-05-28

备注: The first two authors contributed equally

🔗 代码/项目: PROJECT_PAGE


💡 一句话要点

RoboWits:提出双臂机器人创造性问题解决基准,应对意外挑战。

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 机器人操作 认知推理 创造性问题解决 自动化任务生成 视觉语言模型

📋 核心要点

  1. 现有机器人基准侧重于技能执行,缺乏对认知推理能力的深入评估,无法应对真实世界中的意外挑战。
  2. RoboWits通过自动化任务生成流程,构建包含种子任务和变异任务的双臂机器人基准,系统评估认知推理和创造性工具使用。
  3. 实验表明,预训练视觉语言模型在变异任务中表现出脆弱性,难以适应需要推理和策略调整的复杂操作任务。

📝 摘要(中文)

为了评估机器人在真实环境中进行推理、适应和创造性解决问题的能力,本研究提出了RoboWits,一个双臂机器人基准,旨在系统地评估认知推理、创造性工具使用以及对意外情况的鲁棒性。为了能够可扩展地构建高质量的、以推理为中心的意外场景,我们提出了一个自动化的任务生成流程,该流程被构建为一个多智能体合作框架,包括种子任务生成和验证、指标生成、场景生成和任务变异的智能体。利用该流程,我们策划了30个不同的种子任务和208个具有变异和分级难度的任务,这些任务涵盖了基于几何、材料和组装的推理。我们对流行的机器人策略、预训练的视觉语言模型(VLAs)和oracle-state规划器进行了基准测试。结果表明存在显著的性能差距:虽然预训练的VLA在单任务微调后在种子任务上表现出初步的成功,但它们难以执行变异任务,这意味着它们在需要推理、策略适应以及对欺骗性或受约束环境具有鲁棒性的操作任务中表现出脆弱性。项目主页可在https://umass-embodied-agi.github.io/RoboWits 访问。

🔬 方法详解

问题定义:现有机器人基准测试主要关注技能层面的执行,缺乏对机器人认知推理、创造性解决问题以及应对意外情况能力的有效评估。这使得机器人难以在真实世界复杂环境中可靠运行。现有方法在处理需要策略调整和推理的任务时表现出脆弱性,无法很好地泛化到新的、未知的场景中。

核心思路:RoboWits的核心思路是构建一个具有挑战性的、以推理为中心的机器人基准,该基准能够系统地评估机器人在各种意外情况下的认知能力。通过自动化生成任务,可以创建大量具有不同难度和变异的任务,从而更全面地测试机器人的鲁棒性和泛化能力。

技术框架:RoboWits采用多智能体合作框架来自动化生成任务。该框架包含以下主要模块:1) 种子任务生成和验证:生成初始任务并验证其可行性;2) 指标生成:定义用于评估任务难度的指标;3) 场景生成:创建包含各种物体和约束的物理场景;4) 任务变异:通过改变任务目标、环境条件或物体属性来生成新的任务变体。这些模块协同工作,生成具有不同难度和挑战性的任务。

关键创新:RoboWits的关键创新在于其自动化的任务生成流程。该流程能够可扩展地生成大量高质量的、以推理为中心的意外场景,从而克服了手动设计任务的局限性。此外,RoboWits还引入了任务变异的概念,通过改变任务的各个方面来测试机器人的鲁棒性和泛化能力。

关键设计:任务生成流程中的关键设计包括:1) 使用多智能体合作框架来提高任务生成效率和质量;2) 定义明确的指标来评估任务难度,从而实现任务的难度分级;3) 采用随机化的场景生成方法来增加任务的多样性;4) 设计合理的任务变异策略,以确保生成的任务具有挑战性和可行性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,预训练的视觉语言模型(VLAs)在经过单任务微调后,在种子任务上表现出初步的成功。然而,当面对变异任务时,它们的性能显著下降,表明它们在需要推理、策略适应和对欺骗性或受约束环境具有鲁棒性的操作任务中表现出脆弱性。这突显了现有方法在处理复杂推理任务方面的局限性,并强调了RoboWits基准的价值。

🎯 应用场景

RoboWits可用于评估和提升机器人在复杂和动态环境中的操作能力,例如在家庭服务、工业自动化和医疗保健等领域。通过在该基准上训练和评估机器人,可以提高它们在真实世界场景中的适应性和鲁棒性,从而实现更安全、更可靠的机器人应用。

📄 摘要(原文)

The ability to reason, adapt, and creatively solve problems under unexpected challenges is essential for robots operating in real-world environments. However, current robotic benchmarks primarily emphasize skill-level execution and provide limited insight into such cognitive reasoning capabilities. We introduce RoboWits, a bi-manual robotic benchmark designed to systematically evaluate cognitive reasoning, creative tool use, and robustness to unexpected conditions. To enable scalable construction of high-quality reasoning-centric unexpected scenarios, we propose an automated task generation pipeline formulated as a multi-agent cooperative framework, comprising agents for seed task generation and verification, metric generation, scene generation, and task mutation. Using the pipeline, we curated 30 diverse seed tasks and 208 tasks with mutations and graded difficulty across geometry, material, and assembly-based reasoning. We benchmark popular robot policies, pre-trained VLAs, and oracle-state planners. Our results reveal a significant performance gap: while pre-trained VLAs exhibit preliminary success on seed tasks after single-task fine-tuning, they struggle to perform on mutated tasks, implying their brittleness in manipulation tasks requiring reasoning, strategy adaptation, and robustness to deceptive or constrained environments. Project page is available at https://umass-embodied-agi.github.io/RoboWits.