YourBench: Easy Custom Evaluation Sets for Everyone

📄 arXiv: 2504.01833v1 📥 PDF

作者: Sumuk Shashidhar, Clémentine Fourrier, Alina Lozovskia, Thomas Wolf, Gokhan Tur, Dilek Hakkani-Tür

分类: cs.CL, cs.AI

发布日期: 2025-04-02


💡 一句话要点

YourBench:一种易于使用的自定义评估集生成框架,解决LLM评估难题

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型评估 动态基准测试 领域定制 自动化评估 数据生成 知识问答 Tempora-0325数据集

📋 核心要点

  1. 现有LLM评估方法面临静态基准饱和、数据污染以及人工评估成本高等问题,难以满足领域定制和及时性的需求。
  2. YourBench框架通过用户提供的文档,动态、自动地生成可靠、最新且领域定制的基准测试,无需手动标注。
  3. 实验表明,YourBench能以低成本复现现有基准的性能排名,并引入新数据集Tempora-0325以保证评估数据的时效性。

📝 摘要(中文)

大型语言模型(LLM)的有效评估仍然是一个关键瓶颈,因为传统的静态基准测试存在饱和和污染问题,而人工评估成本高昂且速度慢。这阻碍了及时或特定领域的评估,而这对于实际应用至关重要。我们介绍了YourBench,这是一个新颖的开源框架,通过直接从用户提供的文档中动态、自动地生成可靠、最新和领域定制的基准测试,从而经济高效地解决这些限制,而无需手动注释。我们通过使用最少的源文本复制7个不同的MMLU子集来证明其有效性,总推理成本低于15美元,同时完美地保留了在原始基准测试中观察到的相对模型性能排名(Spearman Rho = 1)。为了确保YourBench生成的数据基于提供的输入,而不是依赖于模型中的后验参数知识,我们还引入了Tempora-0325,这是一个包含7K多个不同文档的新数据集,专门在2025年3月之后发布。我们对来自7个主要系列的26个SoTA模型进行了全面的分析,这些模型具有不同的规模(3-671B参数),通过严格的算法检查(例如,引用基础)和人工评估来验证生成的评估的质量。我们发布了YourBench库、Tempora-0325数据集、基于Tempora的15万多个问答对以及所有评估和推理跟踪,以促进可重复的研究,并使社区能够按需生成定制基准测试,从而促进更相关和值得信赖的LLM评估。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)评估方法,如静态基准测试,容易出现数据污染和饱和现象,无法准确反映模型在特定领域或最新知识上的表现。人工评估成本高昂且耗时,难以快速迭代和定制评估方案。因此,需要一种能够动态生成、低成本、领域定制的评估方法。

核心思路:YourBench的核心思路是利用用户提供的文档作为知识来源,自动生成与这些文档相关的评估数据集。通过这种方式,可以确保评估数据与特定领域或最新知识对齐,避免了传统基准测试的数据污染问题。同时,自动化生成过程大大降低了评估成本和时间。

技术框架:YourBench的整体框架包括以下几个主要模块:1) 文档输入模块:接收用户提供的文档作为知识来源。2) 问题生成模块:基于输入的文档,自动生成问题。3) 答案生成模块:基于输入的文档,自动生成问题的答案。4) 评估模块:使用生成的问题和答案评估LLM的性能。5) 验证模块:通过算法检查和人工评估,验证生成数据的质量。

关键创新:YourBench最重要的技术创新点在于其动态生成评估数据集的能力。与传统的静态基准测试不同,YourBench可以根据用户提供的文档,实时生成与特定领域或最新知识相关的评估数据。此外,引入Tempora-0325数据集,保证了评估数据的新鲜度,避免了模型利用训练数据中的先验知识作弊。

关键设计:YourBench的关键设计包括:1) 使用特定的提示工程(Prompt Engineering)技术来控制问题和答案的生成过程,确保生成的数据质量。2) 引入引用基础(Citation Grounding)等算法检查方法,验证生成的数据是否真实地基于提供的文档。3) 通过人工评估,进一步验证生成数据的质量和相关性。4) 公开YourBench库、Tempora-0325数据集以及大量的问答对和评估结果,促进可重复的研究。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

YourBench成功地使用不到15美元的推理成本复制了7个不同的MMLU子集,并且完美地保留了原始基准测试中观察到的相对模型性能排名(Spearman Rho = 1)。此外,该研究还发布了包含7K多个文档的Tempora-0325数据集,以及基于该数据集生成的15万多个问答对,为LLM评估研究提供了宝贵资源。

🎯 应用场景

YourBench可应用于各种需要定制化LLM评估的场景,例如特定行业的知识问答、最新事件的理解评估等。它能够帮助企业和研究人员快速、低成本地评估LLM在特定领域的性能,并根据评估结果进行模型优化和改进。该研究有助于推动LLM在实际应用中的落地,并提高LLM评估的可靠性和可信度。

📄 摘要(原文)

Evaluating large language models (LLMs) effectively remains a critical bottleneck, as traditional static benchmarks suffer from saturation and contamination, while human evaluations are costly and slow. This hinders timely or domain-specific assessment, crucial for real-world applications. We introduce YourBench, a novel, open-source framework that addresses these limitations by enabling dynamic, automated generation of reliable, up-to-date, and domain-tailored benchmarks cheaply and without manual annotation, directly from user-provided documents. We demonstrate its efficacy by replicating 7 diverse MMLU subsets using minimal source text, achieving this for under 15 USD in total inference costs while perfectly preserving the relative model performance rankings (Spearman Rho = 1) observed on the original benchmark. To ensure that YourBench generates data grounded in provided input instead of relying on posterior parametric knowledge in models, we also introduce Tempora-0325, a novel dataset of over 7K diverse documents, published exclusively after March 2025. Our comprehensive analysis spans 26 SoTA models from 7 major families across varying scales (3-671B parameters) to validate the quality of generated evaluations through rigorous algorithmic checks (e.g., citation grounding) and human assessments. We release the YourBench library, the Tempora-0325 dataset, 150k+ question answer pairs based on Tempora and all evaluation and inference traces to facilitate reproducible research and empower the community to generate bespoke benchmarks on demand, fostering more relevant and trustworthy LLM evaluation.