HCAST: Human-Calibrated Autonomy Software Tasks

📄 arXiv: 2503.17354v1 📥 PDF

作者: David Rein, Joel Becker, Amy Deng, Seraphina Nix, Chris Canal, Daniel O'Connel, Pip Arnott, Ryan Bloom, Thomas Broadley, Katharyn Garcia, Brian Goodrich, Max Hasin, Sami Jawhar, Megan Kinniment, Thomas Kwa, Aron Lajko, Nate Rush, Lucas Jun Koba Sato, Sydney Von Arx, Ben West, Lawrence Chan, Elizabeth Barnes

分类: cs.AI

发布日期: 2025-03-21

备注: 32 pages, 10 figures, 5 tables


💡 一句话要点

HCAST:提出人类校准的自主软件任务基准,评估AI在软件工程等领域的自主能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 自主软件任务 AI基准 人类校准 软件工程 网络安全

📋 核心要点

  1. 现有AI评估缺乏与现实世界影响的直接联系,难以评估AI的实际自主能力。
  2. HCAST基准通过测量人类完成任务所需时间,为AI能力评估提供直观的度量标准。
  3. 实验表明,当前AI在短时任务上表现较好,但在复杂长时任务上仍有较大提升空间。

📝 摘要(中文)

为了理解和预测高度自主AI系统对社会的影响,我们需要具有实际意义的基准,即能够直接将AI性能与我们关心的现实世界影响联系起来的指标。我们提出了HCAST(人类校准的自主软件任务),这是一个包含189个机器学习工程、网络安全、软件工程和通用推理任务的基准。我们从这些领域的技术人员那里收集了563个人类基线(总计超过1500小时),他们在与AI agent相同的条件下工作,这使我们能够估计HCAST任务需要人类花费一分钟到8个多小时。衡量人类完成任务所需的时间为评估AI能力提供了一个直观的指标,有助于回答“是否可以信任agent完成一项人类需要花费X小时的任务?”这个问题。我们评估了基于前沿基础模型构建的AI agent的成功率,发现当前agent在人类花费不到一小时的任务中成功率达到70-80%,而在人类花费超过4小时的任务中成功率低于20%。

🔬 方法详解

问题定义:现有AI基准难以直接反映AI在现实世界中的自主能力,缺乏与人类表现的直接对比,难以评估AI在复杂任务中的可信度。HCAST旨在解决这一问题,提供一个更贴近实际应用场景的评估框架。

核心思路:HCAST的核心思路是通过测量人类专家完成特定任务所需的时间,建立一个校准的基准。这个时间作为AI性能的直接参照,使得评估结果更具可解释性和实际意义。通过对比AI与人类在相同任务上的表现,可以更准确地评估AI的自主能力和可信度。

技术框架:HCAST基准包含189个任务,涵盖机器学习工程、网络安全、软件工程和通用推理等领域。研究人员收集了563个人类基线,记录了人类专家在相同条件下完成这些任务所需的时间。然后,使用前沿基础模型构建AI agent,并在相同的任务上进行评估。最后,将AI的成功率与人类完成任务所需的时间进行对比,从而评估AI的自主能力。

关键创新:HCAST的关键创新在于其“人类校准”的方法。通过直接测量人类完成任务所需的时间,HCAST建立了一个与现实世界影响直接相关的基准。这种方法使得评估结果更具可解释性和实际意义,有助于回答“是否可以信任agent完成一项人类需要花费X小时的任务?”这个问题。

关键设计:HCAST的任务设计涵盖了不同难度级别和领域的任务,确保了基准的全面性和代表性。人类基线的收集过程严格控制了实验条件,确保了数据的可靠性和可比性。AI agent的评估采用了标准的成功率指标,并与人类完成任务所需的时间进行了对比分析。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,当前基于前沿基础模型构建的AI agent在人类花费不到一小时的任务中成功率达到70-80%,而在人类花费超过4小时的任务中成功率低于20%。这表明当前AI在短时任务上表现较好,但在复杂长时任务上仍有较大提升空间。HCAST基准为未来的AI研究提供了重要的参考依据。

🎯 应用场景

HCAST基准可用于评估和比较不同AI系统在软件工程、网络安全等领域的自主能力。它可以帮助开发者识别AI系统的优势和不足,从而改进算法和模型。此外,HCAST还可以用于评估AI系统在实际应用中的可信度,为决策者提供参考依据,促进AI技术在各个领域的安全可靠应用。

📄 摘要(原文)

To understand and predict the societal impacts of highly autonomous AI systems, we need benchmarks with grounding, i.e., metrics that directly connect AI performance to real-world effects we care about. We present HCAST (Human-Calibrated Autonomy Software Tasks), a benchmark of 189 machine learning engineering, cybersecurity, software engineering, and general reasoning tasks. We collect 563 human baselines (totaling over 1500 hours) from people skilled in these domains, working under identical conditions as AI agents, which lets us estimate that HCAST tasks take humans between one minute and 8+ hours. Measuring the time tasks take for humans provides an intuitive metric for evaluating AI capabilities, helping answer the question "can an agent be trusted to complete a task that would take a human X hours?" We evaluate the success rates of AI agents built on frontier foundation models, and we find that current agents succeed 70-80% of the time on tasks that take humans less than one hour, and less than 20% of the time on tasks that take humans more than 4 hours.