OckBench: Measuring the Efficiency of LLM Reasoning

📄 arXiv: 2511.05722v1 📥 PDF

作者: Zheng Du, Hao Kang, Song Han, Tushar Krishna, Ligeng Zhu

分类: cs.CL, cs.AI

发布日期: 2025-11-07


💡 一句话要点

OckBench:提出兼顾准确率与token效率的大语言模型推理评估基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 基准测试 token效率 推理评估 编码评估

📋 核心要点

  1. 现有LLM评估侧重准确率,忽略了token效率,导致实际应用中成本、延迟和能耗差异被忽视。
  2. OckBench基准同时评估LLM在推理和编码任务中的准确率和token消耗,实现更全面的性能评估。
  3. 实验表明,即使准确率相近的模型,token效率也可能差异巨大,强调了token效率评估的重要性。

📝 摘要(中文)

大型语言模型(LLM),如GPT-4、Claude 3和Gemini系列,在自动化推理和代码生成方面取得了显著进展。然而,现有的基准测试主要关注准确性和输出质量,忽略了一个重要因素:解码token效率。在实际系统中,生成10,000个token与生成100,000个token在延迟、成本和能源消耗方面存在巨大差异。本文提出了OckBench,一个模型无关和硬件无关的基准测试,用于评估推理和编码任务的准确性和token数量。通过比较多个开源和闭源模型的实验,我们发现许多准确率相当的模型在token消耗方面差异巨大,揭示了效率差异是一个被忽视但重要的区分维度。我们进一步展示了准确率-效率平面上的帕累托前沿,并主张评估范式的转变:我们不应再将token视为可以随意增加的“免费”资源。OckBench为测量、比较和指导token高效推理研究提供了一个统一的平台。我们的基准测试可在https://ockbench.github.io/ 获取。

🔬 方法详解

问题定义:现有的大语言模型(LLM)评估基准主要关注模型的准确率和输出质量,而忽略了模型在推理过程中所消耗的token数量。在实际应用中,token数量直接影响模型的推理延迟、计算成本和能源消耗。因此,如何有效地评估LLM在保证准确率的同时,降低token消耗,是一个亟待解决的问题。

核心思路:OckBench的核心思路是建立一个模型无关和硬件无关的基准测试,用于同时评估LLM在推理和编码任务中的准确率和token消耗。通过综合考虑这两个指标,可以更全面地评估LLM的性能,并为模型选择和优化提供指导。该思路旨在改变目前将token视为“免费”资源的评估范式,引导研究人员关注token效率。

技术框架:OckBench的整体框架包括以下几个主要模块:1) 任务定义模块:定义了一系列推理和编码任务,涵盖不同的难度级别和应用场景。2) 模型评估模块:针对每个任务,评估LLM的准确率和token消耗。3) 结果分析模块:对评估结果进行统计分析,生成准确率-效率帕累托前沿,并提供模型性能比较和排名。

关键创新:OckBench最重要的技术创新点在于其同时评估准确率和token消耗的综合评估方法。与现有基准测试只关注准确率不同,OckBench将token效率纳入评估体系,从而更全面地反映LLM的实际性能。此外,OckBench的设计是模型无关和硬件无关的,可以方便地应用于各种LLM和硬件平台。

关键设计:OckBench的关键设计包括:1) 任务选择:选择了具有代表性的推理和编码任务,以覆盖不同的LLM应用场景。2) 评估指标:采用标准的准确率指标和token数量作为评估指标,并定义了准确率-效率帕累托前沿,用于综合评估模型性能。3) 实验设置:设计了合理的实验设置,以保证评估结果的可靠性和可重复性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在准确率相近的情况下,不同LLM的token消耗差异巨大,最高可达数倍。OckBench揭示了现有LLM在token效率方面的不足,并展示了准确率-效率帕累托前沿,为模型选择和优化提供了重要参考。例如,某些开源模型在特定任务上,以较低的token消耗实现了与闭源模型相当的准确率。

🎯 应用场景

OckBench可应用于大语言模型的选型、优化和部署。开发者可以使用OckBench评估不同模型的token效率,选择在满足准确率要求的前提下,token消耗更低的方案,从而降低推理成本和延迟。研究人员可以利用OckBench分析模型token效率的影响因素,指导模型架构设计和训练策略优化,提升LLM的实际应用价值。

📄 摘要(原文)

Large language models such as GPT-4, Claude 3, and the Gemini series have improved automated reasoning and code generation. However, existing benchmarks mainly focus on accuracy and output quality, and they ignore an important factor: decoding token efficiency. In real systems, generating 10,000 tokens versus 100,000 tokens leads to large differences in latency, cost, and energy. In this work, we introduce OckBench, a model-agnostic and hardware-agnostic benchmark that evaluates both accuracy and token count for reasoning and coding tasks. Through experiments comparing multiple open- and closed-source models, we uncover that many models with comparable accuracy differ wildly in token consumption, revealing that efficiency variance is a neglected but significant axis of differentiation. We further demonstrate Pareto frontiers over the accuracy-efficiency plane and argue for an evaluation paradigm shift: we should no longer treat tokens as "free" to multiply. OckBench provides a unified platform for measuring, comparing, and guiding research in token-efficient reasoning. Our benchmarks are available at https://ockbench.github.io/ .