LiveBench: A Challenging, Contamination-Limited LLM Benchmark
作者: Colin White, Samuel Dooley, Manley Roberts, Arka Pal, Ben Feuer, Siddhartha Jain, Ravid Shwartz-Ziv, Neel Jain, Khalid Saifullah, Sreemanti Dey, Shubh-Agrawal, Sandeep Singh Sandha, Siddartha Naidu, Chinmay Hegde, Yann LeCun, Tom Goldstein, Willie Neiswanger, Micah Goldblum
分类: cs.CL, cs.AI, cs.LG
发布日期: 2024-06-27 (更新: 2025-04-18)
备注: ICLR 2025 Spotlight
💡 一句话要点
LiveBench:一个具有挑战性且污染受限的大语言模型评测基准
🎯 匹配领域: 支柱八:物理动画 (Physics-based Animation) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 评测基准 测试集污染 自动评分 客观评估
📋 核心要点
- 现有LLM评测基准易受测试集污染,导致评估结果不准确,且依赖人工或LLM评判引入偏差。
- LiveBench通过引入时效性强、自动评分、覆盖广泛任务的评测题目,有效降低测试集污染和主观偏差。
- 实验结果表明,LiveBench对现有LLM模型具有挑战性,顶级模型准确率低于70%,可有效区分模型能力。
📝 摘要(中文)
本文介绍了一个新的大语言模型(LLM)评测基准LiveBench,旨在解决测试集污染问题,即模型训练数据包含评测数据,导致评估结果失真。LiveBench通过以下方式实现:(1) 包含来自最新信息源的频繁更新的问题;(2) 根据客观的ground-truth值自动评分;(3) 包含涵盖数学、编码、推理、语言、指令遵循和数据分析等多种具有挑战性的任务。LiveBench的问题基于最近发布的数学竞赛、arXiv论文、新闻文章和数据集,并包含来自Big-Bench Hard、AMPS和IFEval等先前基准的更难、污染受限的版本。我们评估了许多著名的闭源模型以及从0.5B到405B大小的数十个开源模型。LiveBench具有挑战性,顶级模型的准确率低于70%。我们发布所有问题、代码和模型答案。问题每月添加和更新,并且我们随着时间的推移发布新的任务和更难的任务版本,以便LiveBench可以区分LLM的能力,因为它们在未来会得到改进。我们欢迎社区参与和协作,以扩展基准任务和模型。
🔬 方法详解
问题定义:现有的大语言模型评测基准面临测试集污染的问题,即模型在训练过程中可能已经接触过测试集中的数据,导致评估结果虚高。此外,依赖人工或LLM进行评判容易引入主观偏差,影响评估的公正性。因此,需要一个能够有效避免测试集污染,并提供客观评估的评测基准。
核心思路:LiveBench的核心思路是利用时效性强、难以被预先包含在训练数据中的信息源(如最新发布的论文、新闻等)构建评测题目,并采用客观的ground-truth进行自动评分。通过定期更新题目,持续降低测试集污染的风险。
技术框架:LiveBench的整体框架包括以下几个关键组成部分:(1) 题目来源:从最近发布的数学竞赛、arXiv论文、新闻文章和数据集等获取题目;(2) 任务类型:涵盖数学、编码、推理、语言、指令遵循和数据分析等多种任务类型;(3) 自动评分:根据客观的ground-truth值对模型答案进行自动评分,避免主观偏差;(4) 定期更新:每月添加和更新题目,并随着时间的推移发布新的任务和更难的任务版本。
关键创新:LiveBench最重要的技术创新点在于其对测试集污染的有效控制和客观的自动评分机制。与传统的评测基准相比,LiveBench能够更准确地反映模型的真实能力,并为模型的持续改进提供可靠的评估依据。
关键设计:LiveBench的关键设计包括:(1) 题目来源的多样性,确保覆盖广泛的知识领域和任务类型;(2) 自动评分规则的严谨性,保证评分的客观性和准确性;(3) 题目更新的频率,确保测试集的新鲜度,降低污染风险;(4) 任务难度的递增性,能够区分不同模型的性能差异。
📊 实验亮点
LiveBench对多个闭源和开源LLM进行了评估,结果显示顶级模型的准确率低于70%,表明该基准具有很高的挑战性。该基准能够有效区分不同模型的性能差异,并为模型的改进提供有价值的反馈。所有问题、代码和模型答案均已开源。
🎯 应用场景
LiveBench可用于评估和比较不同大语言模型的性能,指导模型训练和优化,并促进LLM在各个领域的应用。该基准的客观性和抗污染性使其成为评估LLM在实际应用中可靠性的重要工具,例如智能客服、内容生成、数据分析等。
📄 摘要(原文)
Test set contamination, wherein test data from a benchmark ends up in a newer model's training set, is a well-documented obstacle for fair LLM evaluation and can quickly render benchmarks obsolete. To mitigate this, many recent benchmarks crowdsource new prompts and evaluations from human or LLM judges; however, these can introduce significant biases, and break down when scoring hard questions. In this work, we introduce a new benchmark for LLMs designed to be resistant to both test set contamination and the pitfalls of LLM judging and human crowdsourcing. We release LiveBench, the first benchmark that (1) contains frequently-updated questions from recent information sources, (2) scores answers automatically according to objective ground-truth values, and (3) contains a wide variety of challenging tasks, spanning math, coding, reasoning, language, instruction following, and data analysis. To achieve this, LiveBench contains questions that are based on recently-released math competitions, arXiv papers, news articles, and datasets, and it contains harder, contamination-limited versions of tasks from previous benchmarks such as Big-Bench Hard, AMPS, and IFEval. We evaluate many prominent closed-source models, as well as dozens of open-source models ranging from 0.5B to 405B in size. LiveBench is difficult, with top models achieving below 70% accuracy. We release all questions, code, and model answers. Questions are added and updated on a monthly basis, and we release new tasks and harder versions of tasks over time so that LiveBench can distinguish between the capabilities of LLMs as they improve in the future. We welcome community engagement and collaboration for expanding the benchmark tasks and models.