BIG-Bench Extra Hard
作者: Mehran Kazemi, Bahare Fatemi, Hritik Bansal, John Palowitch, Chrysovalantis Anastasiou, Sanket Vaibhav Mehta, Lalit K. Jain, Virginia Aglietti, Disha Jindal, Peter Chen, Nishanth Dikkala, Gladys Tyen, Xin Liu, Uri Shalit, Silvia Chiappa, Kate Olszewska, Yi Tay, Vinh Q. Tran, Quoc V. Le, Orhan Firat
分类: cs.CL
发布日期: 2025-02-26 (更新: 2025-05-06)
🔗 代码/项目: GITHUB
💡 一句话要点
提出BIG-Bench Extra Hard (BBEH)基准,用于评估LLM更高级的通用推理能力。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理基准 通用推理 BIG-Bench 难度评估 模型评估 人工智能
📋 核心要点
- 现有LLM推理基准侧重于数学和编码能力,忽略了更广泛的通用推理能力评估。
- BBEH通过替换BBH中的任务,并显著增加难度,来测试LLM更高级的推理能力。
- 实验结果表明,现有模型在BBEH上的表现远未达到饱和,仍有巨大的提升空间。
📝 摘要(中文)
大型语言模型(LLM)日益广泛地应用于日常应用中,这要求它们具备强大的通用推理能力和多样化的推理技能。然而,当前的LLM推理基准主要集中在数学和编码能力上,缺乏对更广泛推理能力的评估。BIG-Bench数据集是一个重要的例外,它通过多样化的挑战性任务,对LLM的通用推理能力进行了全面的评估。然而,LLM的最新进展已经导致BIG-Bench及其更难版本BIG-Bench Hard (BBH)的饱和。最先进的模型在BBH的许多任务上取得了接近完美的成绩,从而降低了它的效用。为了解决这个局限性,我们引入了BIG-Bench Extra Hard (BBEH),这是一个新的基准,旨在推动LLM推理评估的边界。BBEH用一个新任务替换了BBH中的每个任务,该任务探测类似的推理能力,但难度显著增加。我们在BBEH上评估了各种模型,观察到最佳通用模型的(调和)平均准确率为9.8%,最佳推理专用模型的平均准确率为44.8%,这表明仍有很大的改进空间,并突出了在LLM中实现稳健的通用推理的持续挑战。我们在https://github.com/google-deepmind/bbeh公开发布了BBEH。
🔬 方法详解
问题定义:论文旨在解决现有LLM推理能力评估基准(如BIG-Bench Hard)逐渐饱和的问题。随着LLM能力的提升,它们在这些基准上的表现接近完美,无法有效区分不同模型的推理能力,也无法准确反映LLM在更复杂推理任务上的表现。现有基准的痛点在于难度不足,无法充分挖掘LLM的推理潜力。
核心思路:论文的核心思路是构建一个难度更高的推理基准,即BIG-Bench Extra Hard (BBEH)。BBEH通过替换BIG-Bench Hard中的每个任务,并显著增加其难度,来挑战LLM的推理极限。这样设计的目的是为了更准确地评估LLM在复杂推理任务上的表现,并推动LLM推理能力的进一步发展。
技术框架:BBEH的构建框架基于BIG-Bench Hard。对于BBH中的每个任务,BBEH都设计了一个新的、更难的任务,以探测相似的推理能力。这意味着BBEH继承了BBH的多样性,涵盖了各种不同的推理技能。整体流程包括:1) 确定BBH中的任务类型;2) 设计与BBH任务类型相似,但难度更高的新任务;3) 将新任务添加到BBEH基准中。
关键创新:BBEH的关键创新在于其难度。它不是简单地增加任务的数量,而是通过精心设计,使得每个任务都需要更高级的推理能力才能解决。这种难度提升体现在任务的复杂性、抽象性、歧义性等方面。与现有基准相比,BBEH能够更有效地评估LLM的推理能力,并为LLM的研究提供更有价值的反馈。
关键设计:BBEH的关键设计在于如何保证新任务的难度显著高于BBH中的任务。具体的设计细节取决于每个任务的类型。例如,对于需要数学推理的任务,可以增加计算的复杂性或引入更多的约束条件;对于需要常识推理的任务,可以引入更多的歧义或反常识的元素。此外,BBEH还注重任务的多样性,确保涵盖各种不同的推理技能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,在BBEH上,最佳通用模型的调和平均准确率仅为9.8%,最佳推理专用模型的平均准确率为44.8%。这与模型在BIG-Bench Hard上的表现形成鲜明对比,表明BBEH的难度显著提升,能够有效区分不同LLM的推理能力,并为LLM的研究提供了新的挑战。
🎯 应用场景
BBEH可用于评估和比较不同LLM的推理能力,指导LLM的训练和优化。它还可以用于识别LLM在推理方面的优势和不足,从而促进LLM在特定领域的应用。此外,BBEH可以作为LLM研究的基准,推动LLM推理能力的持续发展,并最终提升LLM在各种实际应用中的性能。
📄 摘要(原文)
Large language models (LLMs) are increasingly deployed in everyday applications, demanding robust general reasoning capabilities and diverse reasoning skillset. However, current LLM reasoning benchmarks predominantly focus on mathematical and coding abilities, leaving a gap in evaluating broader reasoning proficiencies. One particular exception is the BIG-Bench dataset, which has served as a crucial benchmark for evaluating the general reasoning capabilities of LLMs, thanks to its diverse set of challenging tasks that allowed for a comprehensive assessment of general reasoning across various skills within a unified framework. However, recent advances in LLMs have led to saturation on BIG-Bench, and its harder version BIG-Bench Hard (BBH). State-of-the-art models achieve near-perfect scores on many tasks in BBH, thus diminishing its utility. To address this limitation, we introduce BIG-Bench Extra Hard (BBEH), a new benchmark designed to push the boundaries of LLM reasoning evaluation. BBEH replaces each task in BBH with a novel task that probes a similar reasoning capability but exhibits significantly increased difficulty. We evaluate various models on BBEH and observe a (harmonic) average accuracy of 9.8\% for the best general-purpose model and 44.8\% for the best reasoning-specialized model, indicating substantial room for improvement and highlighting the ongoing challenge of achieving robust general reasoning in LLMs. We release BBEH publicly at: https://github.com/google-deepmind/bbeh.