One-Eval: An Agentic System for Automated and Traceable LLM Evaluation

📄 arXiv: 2603.09821v1 📥 PDF

作者: Chengyu Shen, Yanheng Hou, Minghui Pan, Runming He, Zhen Hao Wong, Meiyi Qiang, Zhou Liu, Hao Liang, Peichao Lai, Zeang Sheng, Wentao Zhang

分类: cs.CL

发布日期: 2026-03-10

🔗 代码/项目: GITHUB


💡 一句话要点

One-Eval:一个自动化、可溯源的 Agentic LLM 评估系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型评估 自动化评估 Agentic系统 可追溯性 自然语言处理 基准测试 人机协作

📋 核心要点

  1. 现有LLM评估流程依赖大量人工,包括基准选择、代码复现、数据模式配置和结果解读,效率低下且易出错。
  2. One-Eval将评估请求转化为可执行的工作流,通过NL2Bench、BenchResolve和Metrics & Reporting等模块实现自动化评估。
  3. 实验证明One-Eval能以更少的人工干预完成端到端评估,提升了评估效率和可重复性,适用于工业界。

📝 摘要(中文)

为了解决大型语言模型(LLM)开发和部署中可靠评估的需求,以及现有评估方法中存在的大量手动工作,本文提出了One-Eval,一个agentic评估系统。该系统将自然语言评估请求转换为可执行、可追溯和可定制的评估工作流程。One-Eval集成了(i) NL2Bench,用于意图结构化和个性化基准规划;(ii) BenchResolve,用于基准解析、自动数据集获取和模式标准化,以确保可执行性;(iii) Metrics & Reporting,用于任务感知的指标选择和超越标量分数的面向决策的报告。该系统还包含人机协作检查点,用于审查、编辑和回滚,同时保留样本证据轨迹,用于调试和可审计性。实验表明,One-Eval能够以最少的用户工作量,从各种自然语言请求执行端到端评估,从而支持工业环境中更高效和可重复的评估。该框架已公开发布。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)评估流程通常需要大量的人工干预,包括手动选择合适的基准测试、复现异构的评估代码库、配置数据集模式映射以及解释聚合的指标。这些步骤繁琐且容易出错,限制了LLM的快速开发和部署。现有的评估方法缺乏自动化和可追溯性,难以调试和审计。

核心思路:One-Eval的核心思路是将自然语言形式的评估请求转化为可执行的评估工作流程。通过引入agentic系统,自动完成基准测试的选择、数据集的获取和预处理、指标的计算和报告生成等环节,从而减少人工干预,提高评估效率和可重复性。该系统还支持人机协作,允许用户审查、编辑和回滚评估流程,并保留样本证据轨迹,方便调试和审计。

技术框架:One-Eval的整体架构包含三个主要模块:NL2Bench、BenchResolve和Metrics & Reporting。NL2Bench负责将自然语言评估请求转化为结构化的意图和个性化的基准测试计划。BenchResolve负责基准测试的解析、自动数据集获取和模式标准化,确保评估的可执行性。Metrics & Reporting负责任务感知的指标选择和面向决策的报告生成。此外,系统还包含人机协作检查点,允许用户进行审查、编辑和回滚操作,并保留样本证据轨迹。

关键创新:One-Eval的关键创新在于其agentic评估系统,能够将自然语言评估请求转化为可执行的评估工作流程。与传统的评估方法相比,One-Eval实现了评估流程的自动化和可追溯性,减少了人工干预,提高了评估效率和可重复性。此外,One-Eval还支持人机协作,允许用户审查、编辑和回滚评估流程,并保留样本证据轨迹,方便调试和审计。

关键设计:NL2Bench模块使用自然语言处理技术,将评估请求解析为结构化的意图和基准测试计划。BenchResolve模块使用知识图谱和规则引擎,自动解析基准测试,获取数据集并进行模式标准化。Metrics & Reporting模块使用任务感知的指标选择算法,选择合适的评估指标,并生成面向决策的报告。人机协作检查点允许用户在评估流程的关键节点进行审查、编辑和回滚操作。系统还使用日志记录和版本控制技术,保留样本证据轨迹,方便调试和审计。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,One-Eval能够以最少的用户工作量,从各种自然语言请求执行端到端评估,显著提高了评估效率和可重复性。具体性能数据和对比基线未在摘要中明确提及,但强调了其在工业环境中的实用价值。

🎯 应用场景

One-Eval可应用于各种LLM的开发、测试和部署环节,例如模型选型、性能优化、安全评估等。该系统能够帮助研究人员和工程师更高效地评估LLM的性能,并快速发现和解决问题。此外,One-Eval的可追溯性特性使其适用于需要严格审计的场景,例如金融、医疗等领域。

📄 摘要(原文)

Reliable evaluation is essential for developing and deploying large language models, yet in practice it often requires substantial manual effort: practitioners must identify appropriate benchmarks, reproduce heterogeneous evaluation codebases, configure dataset schema mappings, and interpret aggregated metrics. To address these challenges, we present One-Eval, an agentic evaluation system that converts natural-language evaluation requests into executable, traceable, and customizable evaluation workflows. One-Eval integrates (i) NL2Bench for intent structuring and personalized benchmark planning, (ii) BenchResolve for benchmark resolution, automatic dataset acquisition, and schema normalization to ensure executability, and (iii) Metrics \& Reporting for task-aware metric selection and decision-oriented reporting beyond scalar scores. The system further incorporates human-in-the-loop checkpoints for review, editing, and rollback, while preserving sample evidence trails for debugging and auditability. Experiments show that One-Eval can execute end-to-end evaluations from diverse natural-language requests with minimal user effort, supporting more efficient and reproducible evaluation in industrial settings. Our framework is publicly available at https://github.com/OpenDCAI/One-Eval.