PhAIL: A Real-Robot VLA Benchmark and Distributional Methodology

作者: Sergey Arkhangelskiy

分类: cs.RO

发布日期: 2026-05-28

备注: 22 pages, 10 figures, 8 tables. Dataset, analysis pipeline, and paper source: https://phail.ai and https://github.com/Positronic-Robotics/phail-paper

💡 一句话要点

PhAIL：基于Franka FR3真实机器人的VLA基准测试与分布评估方法

🎯 匹配领域: 支柱一：机器人控制 (Robot Control) 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 视觉语言动作 机器人学习 基准测试 分布评估 成功时间CDF

📋 核心要点

现有VLA策略的真实机器人评估依赖于固定超时时间内的二元成功率，样本量小，缺乏置信区间和统计比较。
论文提出PhAIL基准测试和分布评估方法，使用成功时间CDF作为评估指标，并引入人类相对吞吐量HRT进行评分。
实验表明，PhAIL能够以更少的rollout次数分辨出传统二元指标无法分辨的VLA策略之间的细微差异。

📝 摘要（中文）

本文提出PhAIL（Physical AI Leaderboard），一个开放的真实机器人基准测试，基于Franka FR3机器人，并提供数据集、单次rollout的中间结果以及端到端参考实现。同时，引入了一种分布式的评估方法：以成功时间累积分布函数（CDF）作为评估的基本单元，分为两个独立的任务。首先，通过人类相对吞吐量（HRT）进行评分，HRT是一个无量纲的标量，具有bootstrap置信区间，并以相同装置上的人工遥操作作为基准。其次，进行显著性检验（Kolmogorov-Smirnov检验，针对每个对象计算，并在对象之间进行宏平均）。在四个公开可用的VLA策略上，宏平均KS检验能够在每个（模型，对象）单元格N ≤ 30次rollout的情况下，分辨出二元阈值指标无法分辨的两个接近的比较（GR00T vs. ACT，OpenPI vs. ACT）；最接近的一对（OpenPI vs. GR00T）在我们的预算内仍未解决。评估的最佳VLA策略的每次操作速度比人类参考慢约7倍（RMST比率）。

🔬 方法详解

问题定义：现有视觉-语言-动作（VLA）策略在真实机器人环境中的评估方法存在局限性。主要痛点在于：1）评估指标过于简单，通常仅使用固定超时时间内的二元成功率，无法充分反映策略的性能差异；2）样本量小（N ≤ 25），难以进行可靠的统计比较，尤其是在策略性能接近时；3）缺乏与人类性能的直接对比，难以评估策略的实际应用价值。

核心思路：论文的核心思路是引入一种更精细、更具统计意义的评估方法，即基于成功时间累积分布函数（CDF）的评估。通过分析策略在不同时间点成功完成任务的概率分布，可以更全面地了解策略的性能。同时，引入人类相对吞吐量（HRT）作为基准，将策略的性能与人类操作进行直接比较。

技术框架：PhAIL基准测试包含以下几个主要组成部分：1）Franka FR3真实机器人平台；2）包含数据集、单次rollout中间结果和端到端参考实现的开放基准；3）基于成功时间CDF的分布评估方法，包括HRT评分和Kolmogorov-Smirnov显著性检验。评估流程分为两个独立的任务：首先，使用HRT对VLA策略进行评分，并计算bootstrap置信区间；其次，使用Kolmogorov-Smirnov检验对不同策略的性能进行显著性检验，以确定它们之间是否存在统计意义上的差异。

关键创新：论文的关键创新在于：1）提出了一种新的评估指标，即成功时间CDF，能够更全面地反映VLA策略的性能；2）引入了人类相对吞吐量（HRT）作为基准，将策略的性能与人类操作进行直接比较；3）提供了一个开放的真实机器人基准测试平台，方便研究人员进行VLA策略的评估和比较。与现有方法的本质区别在于，PhAIL不再依赖于简单的二元成功率，而是通过分析成功时间的分布来更精细地评估策略的性能。

关键设计：HRT的计算方法是将VLA策略的吞吐量与人类操作的吞吐量进行比较，得到一个无量纲的标量。Kolmogorov-Smirnov检验用于比较不同策略的成功时间CDF，以确定它们之间是否存在统计意义上的差异。实验中，针对每个对象计算KS统计量，并在对象之间进行宏平均，以得到整体的显著性检验结果。具体参数设置和网络结构取决于被评估的VLA策略。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PhAIL基准测试能够以较少的rollout次数（N ≤ 30）分辨出传统二元指标无法分辨的VLA策略之间的细微差异。例如，在GR00T vs. ACT和OpenPI vs. ACT的比较中，PhAIL能够检测到显著性差异，而二元阈值指标则无法做到。评估的最佳VLA策略的每次操作速度比人类参考慢约7倍（RMST比率）。

🎯 应用场景

该研究成果可应用于机器人自动化、智能制造、家庭服务等领域。通过PhAIL基准测试，可以更有效地评估和比较不同的VLA策略，从而加速机器人技术的研发和应用。该方法能够更准确地衡量机器人的操作效率，并为机器人与人类协作提供参考，具有重要的实际价值和未来影响。

📄 摘要（原文）

Real-world evaluation of vision-language-action (VLA) policies still rests on binary success rate at a fixed timeout with $N \le 25$ rollouts per condition, almost always without confidence intervals or paired statistical comparison; these cohort sizes struggle to resolve close comparisons reliably. We introduce PhAIL (Physical AI Leaderboard, https://phail.ai), an open real-robot benchmark on a Franka FR3 (dataset, per-rollout artifacts, and end-to-end reference implementation) of a distributional evaluation methodology: the time-to-success cumulative distribution function (CDF) as the evaluation primitive, with two separated jobs. The first is scoring via Human-Relative Throughput (HRT), a dimensionless scalar with bootstrap confidence intervals, anchored to same-fixture human teleoperation. The second is a significance test (Kolmogorov-Smirnov, computed per-object and macro-averaged across objects). On four publicly-available VLAs, the macro-averaged KS test resolves two close comparisons (GR00T vs. ACT, OpenPI vs. ACT) at $N \le 30$ rollouts per (model, object) cell where binary-threshold metrics do not; the closest pair (OpenPI vs. GR00T) remains unresolved within our budget. The best evaluated VLA is $\sim 7\times$ slower per operation (RMST ratio) than the human reference.

PhAIL: A Real-Robot VLA Benchmark and Distributional Methodology

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理