PhAIL: A Real-Robot VLA Benchmark and Distributional Methodology
作者: Sergey Arkhangelskiy
分类: cs.RO
发布日期: 2026-05-28
备注: 22 pages, 10 figures, 8 tables. Dataset, analysis pipeline, and paper source: https://phail.ai and https://github.com/Positronic-Robotics/phail-paper
💡 一句话要点
PhAIL:基于Franka FR3真实机器人的VLA基准测试与分布评估方法
🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 视觉语言动作 机器人学习 基准测试 分布评估 成功时间CDF
📋 核心要点
- 现有VLA策略的真实机器人评估依赖于固定超时时间内的二元成功率,样本量小,缺乏置信区间和统计比较。
- 论文提出PhAIL基准测试和分布评估方法,使用成功时间CDF作为评估指标,并引入人类相对吞吐量HRT进行评分。
- 实验表明,PhAIL能够以更少的rollout次数分辨出传统二元指标无法分辨的VLA策略之间的细微差异。
📝 摘要(中文)
本文提出PhAIL(Physical AI Leaderboard),一个开放的真实机器人基准测试,基于Franka FR3机器人,并提供数据集、单次rollout的中间结果以及端到端参考实现。同时,引入了一种分布式的评估方法:以成功时间累积分布函数(CDF)作为评估的基本单元,分为两个独立的任务。首先,通过人类相对吞吐量(HRT)进行评分,HRT是一个无量纲的标量,具有bootstrap置信区间,并以相同装置上的人工遥操作作为基准。其次,进行显著性检验(Kolmogorov-Smirnov检验,针对每个对象计算,并在对象之间进行宏平均)。在四个公开可用的VLA策略上,宏平均KS检验能够在每个(模型,对象)单元格N ≤ 30次rollout的情况下,分辨出二元阈值指标无法分辨的两个接近的比较(GR00T vs. ACT,OpenPI vs. ACT);最接近的一对(OpenPI vs. GR00T)在我们的预算内仍未解决。评估的最佳VLA策略的每次操作速度比人类参考慢约7倍(RMST比率)。
🔬 方法详解
问题定义:现有视觉-语言-动作(VLA)策略在真实机器人环境中的评估方法存在局限性。主要痛点在于:1)评估指标过于简单,通常仅使用固定超时时间内的二元成功率,无法充分反映策略的性能差异;2)样本量小(N ≤ 25),难以进行可靠的统计比较,尤其是在策略性能接近时;3)缺乏与人类性能的直接对比,难以评估策略的实际应用价值。
核心思路:论文的核心思路是引入一种更精细、更具统计意义的评估方法,即基于成功时间累积分布函数(CDF)的评估。通过分析策略在不同时间点成功完成任务的概率分布,可以更全面地了解策略的性能。同时,引入人类相对吞吐量(HRT)作为基准,将策略的性能与人类操作进行直接比较。
技术框架:PhAIL基准测试包含以下几个主要组成部分:1)Franka FR3真实机器人平台;2)包含数据集、单次rollout中间结果和端到端参考实现的开放基准;3)基于成功时间CDF的分布评估方法,包括HRT评分和Kolmogorov-Smirnov显著性检验。评估流程分为两个独立的任务:首先,使用HRT对VLA策略进行评分,并计算bootstrap置信区间;其次,使用Kolmogorov-Smirnov检验对不同策略的性能进行显著性检验,以确定它们之间是否存在统计意义上的差异。
关键创新:论文的关键创新在于:1)提出了一种新的评估指标,即成功时间CDF,能够更全面地反映VLA策略的性能;2)引入了人类相对吞吐量(HRT)作为基准,将策略的性能与人类操作进行直接比较;3)提供了一个开放的真实机器人基准测试平台,方便研究人员进行VLA策略的评估和比较。与现有方法的本质区别在于,PhAIL不再依赖于简单的二元成功率,而是通过分析成功时间的分布来更精细地评估策略的性能。
关键设计:HRT的计算方法是将VLA策略的吞吐量与人类操作的吞吐量进行比较,得到一个无量纲的标量。Kolmogorov-Smirnov检验用于比较不同策略的成功时间CDF,以确定它们之间是否存在统计意义上的差异。实验中,针对每个对象计算KS统计量,并在对象之间进行宏平均,以得到整体的显著性检验结果。具体参数设置和网络结构取决于被评估的VLA策略。
🖼️ 关键图片
📊 实验亮点
实验结果表明,PhAIL基准测试能够以较少的rollout次数(N ≤ 30)分辨出传统二元指标无法分辨的VLA策略之间的细微差异。例如,在GR00T vs. ACT和OpenPI vs. ACT的比较中,PhAIL能够检测到显著性差异,而二元阈值指标则无法做到。评估的最佳VLA策略的每次操作速度比人类参考慢约7倍(RMST比率)。
🎯 应用场景
该研究成果可应用于机器人自动化、智能制造、家庭服务等领域。通过PhAIL基准测试,可以更有效地评估和比较不同的VLA策略,从而加速机器人技术的研发和应用。该方法能够更准确地衡量机器人的操作效率,并为机器人与人类协作提供参考,具有重要的实际价值和未来影响。
📄 摘要(原文)
Real-world evaluation of vision-language-action (VLA) policies still rests on binary success rate at a fixed timeout with $N \le 25$ rollouts per condition, almost always without confidence intervals or paired statistical comparison; these cohort sizes struggle to resolve close comparisons reliably. We introduce PhAIL (Physical AI Leaderboard, https://phail.ai), an open real-robot benchmark on a Franka FR3 (dataset, per-rollout artifacts, and end-to-end reference implementation) of a distributional evaluation methodology: the time-to-success cumulative distribution function (CDF) as the evaluation primitive, with two separated jobs. The first is scoring via Human-Relative Throughput (HRT), a dimensionless scalar with bootstrap confidence intervals, anchored to same-fixture human teleoperation. The second is a significance test (Kolmogorov-Smirnov, computed per-object and macro-averaged across objects). On four publicly-available VLAs, the macro-averaged KS test resolves two close comparisons (GR00T vs. ACT, OpenPI vs. ACT) at $N \le 30$ rollouts per (model, object) cell where binary-threshold metrics do not; the closest pair (OpenPI vs. GR00T) remains unresolved within our budget. The best evaluated VLA is $\sim 7\times$ slower per operation (RMST ratio) than the human reference.