Act As a Real Researcher: A Suite of Benchmarks Evaluating Frontier LLMs and Agentic Harnesses in Research Lifecycle
作者: Jiayu Wang, Weijiang Lv, Bowen Fu, Jing Fu, Jiayi Song, Lingyu Zhang, Lanxuan Xue, Luodi Chen, Zepeng Xin, Kaiyu Li, Xiangyong Cao
分类: cs.AI
发布日期: 2026-06-05
🔗 代码/项目: GITHUB
💡 一句话要点
提出AARR基准以评估前沿LLM在研究生命周期中的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 研究代理 基准评估 细粒度分析 人工智能 科学研究
📋 核心要点
- 现有的基准主要评估宏观执行能力,缺乏对代理在细粒度研究场景中模拟人类研究者能力的考量。
- 本文提出AARR基准系列,特别是AARRI-Bench,旨在评估代理在研究中的专业性和推理能力。
- 实验结果显示,最佳配置的成功率仅为68.3%,表明当前代理在细节处理上仍有显著不足。
📝 摘要(中文)
随着基础模型的进步和代理框架的日益复杂,代理在复杂的编码任务和自主实验执行中表现出色。然而,这些系统在领域敏感性、研究伦理和细致的科学判断方面仍存在显著局限。因此,前沿代理无法完全替代人类研究者。为此,本文提出了AARR(Act As a Real Researcher)基准系列,重点评估代理在细粒度研究场景中是否能够模拟人类研究者的专业性、严谨性和细致推理。我们首次提出AARRI-Bench(Act As a Real Research Intern),并在前沿模型和代理系统上进行了广泛实验,结果显示即使是表现最佳的配置(Mini-SWE-Agent与Claude Opus 4.7)也仅达到68.3%的成功率,常常忽视人类研究者显而易见的细节。我们的结果表明,开发类研究者的AI需要进一步探索研究行为,而不仅仅是复杂的框架搭建。
🔬 方法详解
问题定义:本文旨在解决现有基准无法有效评估代理在细粒度研究场景中的表现这一问题。现有方法主要关注宏观执行能力,忽视了研究者所需的专业性和细致推理能力。
核心思路:AARR基准系列的核心思想是通过细化评估标准,考察代理在模拟人类研究者的专业性和严谨性方面的能力,从而填补现有评估的空白。
技术框架:AARRI-Bench的整体架构包括多个评估模块,涵盖了研究问题的提出、实验设计、数据分析及结果解释等阶段,旨在全面评估代理的研究能力。
关键创新:本文的主要创新在于提出了AARR基准,强调了研究者的细致推理和专业性,而不仅仅是技术执行能力。这一方法与现有基准的本质区别在于其关注的细节层面。
关键设计:在实验中,采用了Mini-SWE-Agent与Claude Opus 4.7的组合,设置了特定的评估指标和成功率阈值,以确保对代理能力的全面评估。
🖼️ 关键图片
📊 实验亮点
实验结果显示,最佳配置(Mini-SWE-Agent与Claude Opus 4.7)在AARRI-Bench上的成功率仅为68.3%,表明当前代理在处理细节方面存在显著不足。这一发现强调了在AI研究者开发中,深入理解研究行为的重要性。
🎯 应用场景
该研究的潜在应用领域包括科研辅助工具的开发、教育领域的智能辅导系统以及科学研究的自动化。通过提升AI在研究中的表现,可以有效提高研究效率,降低人力成本,并推动科学研究的进步。
📄 摘要(原文)
As foundation models advance and agent scaffolding becomes increasingly sophisticated, agents have demonstrated remarkable proficiency in complex, long-horizon coding tasks and even autonomous experiment execution. Despite their evolution from research assistants into autonomous research agents, these systems still exhibit significant limitations in field sensitivity, research ethics, and nuanced scientific judgment. Consequently, frontier agents remain unable to fully replace human researchers. To bridge this gap, we conceptualize the AARR (Act As a Real Researcher) benchmark series. Unlike existing benchmarks that primarily assess macro-level execution capabilities, AARR focuses on whether agents can emulate the professionalism, thoroughness, and nuanced reasoning that characterize human researchers in granular research scenarios. In this work, we propose AARRI-Bench (Act As a Real Research Intern), the first benchmark in this series. We conduct extensive experiments across frontier models and agentic systems, revealing that even the best-performing configuration (Mini-SWE-Agent with Claude Opus 4.7) achieves only 68.3\% success rate, frequently overlooking subtle yet critical details that are obvious to real human researchers. Our results indicate that developing researcher-like AI requires further exploration of research behavior, rather than merely complex scaffolding. Our data is released at https://github.com/AARR-bench/AARRI-bench.