A2Perf: Real-World Autonomous Agents Benchmark

📄 arXiv: 2503.03056v1 📥 PDF

作者: Ikechukwu Uchendu, Jason Jabbour, Korneel Van den Berghe, Joel Runevic, Matthew Stewart, Jeffrey Ma, Srivatsan Krishnan, Izzeddin Gur, Austin Huang, Colton Bishop, Paige Bailey, Wenjie Jiang, Ebrahim M. Songhori, Sergio Guadarrama, Jie Tan, Jordan K. Terry, Aleksandra Faust, Vijay Janapa Reddi

分类: cs.LG

发布日期: 2025-03-04

备注: 32 pages, 12 figures, preprint


💡 一句话要点

A2Perf:面向真实世界自主Agent的综合性评测基准

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱二:RL算法与架构 (RL & Architecture)

关键词: 自主Agent 评测基准 强化学习 模仿学习 真实世界环境 性能评估 资源效率

📋 核心要点

  1. 现有自主Agent研究缺乏统一的评测标准,难以有效比较不同方法在真实场景下的性能。
  2. A2Perf基准提供计算机芯片布局、Web导航和四足运动三个真实世界环境,并定义了性能、泛化、资源效率和可靠性等关键指标。
  3. 实验表明,A2Perf能够有效评估不同算法在真实场景下的性能,并揭示算法之间的权衡关系,例如四足运动的可靠性权衡。

📝 摘要(中文)

自主Agent和系统涵盖了机器人、数字助理和组合优化等多个应用领域,它们都面临着共同的、尚未解决的研究挑战。Agent不仅要解决给定的任务,还必须泛化到分布外的任务,可靠地执行,并在训练和推理过程中高效地利用硬件资源。强化学习和模仿学习等方法常用于解决这些问题,但各有优缺点。然而,目前缺乏定义环境、数据集和指标的基准测试套件,以便为社区提供一种有意义的方式来比较这些方法在实际问题中的进展。我们推出了A2Perf,它包含三个与真实世界领域密切相关的环境:计算机芯片布局、Web导航和四足运动。A2Perf提供跟踪任务性能、泛化能力、系统资源效率和可靠性的指标,这些指标对于实际应用至关重要。使用A2Perf,我们证明了Web导航Agent可以在消费级硬件上实现与人类反应时间相当的延迟,揭示了四足运动算法之间的可靠性权衡,并量化了不同计算机芯片设计学习方法的能源成本。此外,我们提出了一种数据成本指标,用于衡量获取模仿学习和混合算法离线数据所产生的成本,从而更好地比较这些方法。A2Perf还包含几个标准基线,从而能够进行公平的比较,并促进实际自主领域的进展。作为一个开源基准,A2Perf旨在保持可访问性、及时更新,并长期对研究社区有用。

🔬 方法详解

问题定义:现有自主Agent研究缺乏统一、全面的评测基准,难以评估算法在真实世界场景下的性能表现,尤其是在泛化能力、资源效率和可靠性等方面。不同算法往往在不同的环境和指标下进行评估,导致难以进行公平的比较和分析。此外,离线数据获取成本在模仿学习和混合算法中往往被忽略,影响了对算法整体效率的评估。

核心思路:A2Perf的核心思路是构建一个贴近真实世界的评测基准,包含多个具有代表性的环境,并定义一套全面的评估指标,涵盖任务性能、泛化能力、系统资源效率和可靠性。通过提供标准化的环境和指标,A2Perf旨在促进不同算法之间的公平比较,并推动自主Agent在真实世界应用中的发展。此外,A2Perf还考虑了离线数据获取成本,提出了数据成本指标,以更全面地评估模仿学习和混合算法的效率。

技术框架:A2Perf包含三个主要环境:计算机芯片布局、Web导航和四足运动。每个环境都包含相应的任务、数据集和评估指标。计算机芯片布局环境涉及优化芯片组件的布局,以最小化面积和功耗。Web导航环境涉及使用Agent在Web页面上执行特定任务,例如查找信息或填写表格。四足运动环境涉及控制四足机器人行走和导航。A2Perf还提供了一套标准基线算法,供研究人员进行比较。

关键创新:A2Perf的关键创新在于其综合性和真实性。它不仅提供了多个具有代表性的真实世界环境,还定义了一套全面的评估指标,涵盖了任务性能、泛化能力、系统资源效率和可靠性。此外,A2Perf还考虑了离线数据获取成本,提出了数据成本指标,以更全面地评估模仿学习和混合算法的效率。与现有基准相比,A2Perf更贴近真实世界应用,能够更有效地评估算法的实际性能。

关键设计:A2Perf的关键设计包括环境的构建、指标的定义和基线算法的选择。环境的构建需要考虑真实世界的复杂性和多样性,同时也要保证环境的可控性和可重复性。指标的定义需要涵盖任务性能、泛化能力、系统资源效率和可靠性等多个方面,并保证指标的可测量性和可解释性。基线算法的选择需要具有代表性,能够反映当前自主Agent领域的研究进展。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

A2Perf的实验结果表明,Web导航Agent可以在消费级硬件上实现与人类反应时间相当的延迟。此外,实验还揭示了四足运动算法之间的可靠性权衡,例如,某些算法可能在特定地形上表现更好,但在其他地形上表现较差。A2Perf还量化了不同计算机芯片设计学习方法的能源成本,为选择合适的算法提供了依据。数据成本指标的引入,使得模仿学习和混合算法的评估更加全面。

🎯 应用场景

A2Perf基准的潜在应用领域包括机器人、数字助理、组合优化等。通过提供标准化的评测环境和指标,A2Perf可以帮助研究人员更好地评估和比较不同算法的性能,从而推动自主Agent在真实世界应用中的发展。例如,可以利用A2Perf评估不同算法在Web导航任务中的效率和可靠性,从而开发更智能的Web助手。此外,A2Perf还可以用于评估不同算法在四足机器人控制中的性能,从而开发更灵活和鲁棒的机器人。

📄 摘要(原文)

Autonomous agents and systems cover a number of application areas, from robotics and digital assistants to combinatorial optimization, all sharing common, unresolved research challenges. It is not sufficient for agents to merely solve a given task; they must generalize to out-of-distribution tasks, perform reliably, and use hardware resources efficiently during training and inference, among other requirements. Several methods, such as reinforcement learning and imitation learning, are commonly used to tackle these problems, each with different trade-offs. However, there is a lack of benchmarking suites that define the environments, datasets, and metrics which can be used to provide a meaningful way for the community to compare progress on applying these methods to real-world problems. We introduce A2Perf--a benchmark with three environments that closely resemble real-world domains: computer chip floorplanning, web navigation, and quadruped locomotion. A2Perf provides metrics that track task performance, generalization, system resource efficiency, and reliability, which are all critical to real-world applications. Using A2Perf, we demonstrate that web navigation agents can achieve latencies comparable to human reaction times on consumer hardware, reveal reliability trade-offs between algorithms for quadruped locomotion, and quantify the energy costs of different learning approaches for computer chip-design. In addition, we propose a data cost metric to account for the cost incurred acquiring offline data for imitation learning and hybrid algorithms, which allows us to better compare these approaches. A2Perf also contains several standard baselines, enabling apples-to-apples comparisons across methods and facilitating progress in real-world autonomy. As an open-source benchmark, A2Perf is designed to remain accessible, up-to-date, and useful to the research community over the long term.