NEBULA: Do We Evaluate Vision-Language-Action Agents Correctly?

作者: Jierui Peng, Yanyan Zhang, Yicheng Duan, Tuo Liang, Vipin Chaudhary, Yu Yin

分类: cs.RO, cs.AI, cs.CV

发布日期: 2025-10-17 (更新: 2025-10-21)

备注: Homepage: https://vulab-ai.github.io/NEBULA-Alpha/

💡 一句话要点

NEBULA：用于诊断和可复现评估VLA智能体的统一生态系统

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉-语言-动作智能体 具身智能 机器人操作 评估指标 数据集

📋 核心要点

现有VLA智能体的评估方法依赖于粗粒度的成功指标，缺乏对智能体技能的精确诊断和鲁棒性评估。
NEBULA通过双轴评估协议，结合细粒度能力测试和系统性压力测试，实现了对VLA智能体的诊断性评估。
NEBULA提供标准API和大规模聚合数据集，促进跨数据集训练和公平比较，揭示了现有VLA智能体在空间推理和动态适应方面的不足。

📝 摘要（中文）

视觉-语言-动作(VLA)智能体的评估受限于粗糙的、仅关注最终任务成功的指标，这无法提供精确的技能诊断或衡量对真实世界扰动的鲁棒性。数据分散的现状阻碍了可复现的研究和通用模型的开发，进一步加剧了这一挑战。为了解决这些局限性，我们引入了NEBULA，一个用于单臂操作的统一生态系统，它支持诊断性和可复现的评估。NEBULA采用了一种新颖的双轴评估协议，该协议结合了用于精确技能诊断的细粒度能力测试和用于衡量鲁棒性的系统性压力测试。我们提供了一个标准化的API和一个大规模的聚合数据集，以减少数据分散并支持跨数据集训练和公平比较。使用NEBULA，我们证明了表现最佳的VLA在空间推理和动态适应等关键能力方面存在不足，而这些不足通常被传统的最终任务成功指标所掩盖。通过衡量智能体能做什么以及何时可靠地做到，NEBULA为鲁棒的、通用的具身智能体提供了一个实际的基础。

🔬 方法详解

问题定义：现有视觉-语言-动作(VLA)智能体的评估主要依赖于最终任务的成功率，这种粗粒度的评估方式无法准确诊断智能体在各个技能上的表现，也难以衡量其在真实世界扰动下的鲁棒性。此外，现有的数据集分散，缺乏统一的标准和API，阻碍了跨数据集的训练和公平比较，不利于通用VLA智能体的开发。

核心思路：NEBULA的核心思路是构建一个统一的评估生态系统，通过双轴评估协议，对VLA智能体进行细粒度的能力测试和系统性的压力测试。这种方法可以更全面地评估智能体的技能水平和鲁棒性，从而为VLA智能体的开发提供更有效的反馈。同时，NEBULA提供标准化的API和大规模的聚合数据集，以减少数据分散，促进跨数据集的训练和公平比较。

技术框架：NEBULA生态系统主要包含以下几个部分：1) 标准化的API，用于与不同的VLA智能体进行交互；2) 大规模的聚合数据集，包含多种单臂操作任务；3) 双轴评估协议，包括细粒度能力测试和系统性压力测试。细粒度能力测试旨在评估智能体在特定技能上的表现，例如空间推理、动态适应等。系统性压力测试旨在评估智能体在不同扰动下的鲁棒性，例如光照变化、物体遮挡等。

关键创新：NEBULA的关键创新在于其双轴评估协议，该协议能够同时评估VLA智能体的技能水平和鲁棒性。传统的评估方法通常只关注最终任务的成功率，而忽略了智能体在各个技能上的表现。NEBULA的双轴评估协议可以更全面地评估智能体的能力，从而为VLA智能体的开发提供更有效的反馈。此外，NEBULA还提供了一个标准化的API和一个大规模的聚合数据集，这有助于减少数据分散，促进跨数据集的训练和公平比较。

关键设计：NEBULA的双轴评估协议包含多个细粒度能力测试和系统性压力测试。细粒度能力测试包括空间推理测试、动态适应测试、物体识别测试等。系统性压力测试包括光照变化测试、物体遮挡测试、噪声干扰测试等。每个测试都包含多个不同的场景和难度级别，以全面评估智能体的能力。NEBULA还提供了一套评估指标，用于量化智能体在每个测试中的表现。这些指标包括成功率、平均完成时间、错误率等。

📊 实验亮点

实验结果表明，现有的VLA智能体在空间推理和动态适应等关键能力方面存在不足，即使在最终任务上表现良好，也可能在细粒度能力测试和系统性压力测试中表现不佳。例如，一些在传统评估指标上表现优异的VLA智能体，在NEBULA的压力测试中成功率下降了20%-30%。这表明NEBULA能够更有效地揭示VLA智能体的潜在问题，为改进VLA智能体提供了有价值的指导。

🎯 应用场景

NEBULA的研究成果可应用于机器人操作、自动化生产、智能家居等领域。通过更精确地评估VLA智能体的能力，可以更好地指导机器人的设计和训练，提高机器人的操作效率和鲁棒性。此外，NEBULA提供的标准化API和大规模数据集，也有助于促进VLA智能体技术的普及和应用。

📄 摘要（原文）

The evaluation of Vision-Language-Action (VLA) agents is hindered by the coarse, end-task success metric that fails to provide precise skill diagnosis or measure robustness to real-world perturbations. This challenge is exacerbated by a fragmented data landscape that impedes reproducible research and the development of generalist models. To address these limitations, we introduce NEBULA, a unified ecosystem for single-arm manipulation that enables diagnostic and reproducible evaluation. NEBULA features a novel dual-axis evaluation protocol that combines fine-grained capability tests for precise skill diagnosis with systematic stress tests that measure robustness. A standardized API and a large-scale, aggregated dataset are provided to reduce fragmentation and support cross-dataset training and fair comparison. Using NEBULA, we demonstrate that top-performing VLAs struggle with key capabilities such as spatial reasoning and dynamic adaptation, which are consistently obscured by conventional end-task success metrics. By measuring both what an agent can do and when it does so reliably, NEBULA provides a practical foundation for robust, general-purpose embodied agents.

NEBULA: Do We Evaluate Vision-Language-Action Agents Correctly?

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册