OckBench: Measuring the Efficiency of LLM Reasoning

作者: Zheng Du, Hao Kang, Song Han, Tushar Krishna, Ligeng Zhu

分类: cs.CL, cs.AI

发布日期: 2025-11-07

💡 一句话要点

OckBench：提出兼顾准确率与token效率的大语言模型推理评估基准

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 基准测试 token效率 推理评估 编码评估

📋 核心要点

现有LLM评估侧重准确率，忽略了token效率，导致实际应用中成本、延迟和能耗差异被忽视。
OckBench基准同时评估LLM在推理和编码任务中的准确率和token消耗，实现更全面的性能评估。
实验表明，即使准确率相近的模型，token效率也可能差异巨大，强调了token效率评估的重要性。

📝 摘要（中文）

大型语言模型（LLM），如GPT-4、Claude 3和Gemini系列，在自动化推理和代码生成方面取得了显著进展。然而，现有的基准测试主要关注准确性和输出质量，忽略了一个重要因素：解码token效率。在实际系统中，生成10,000个token与生成100,000个token在延迟、成本和能源消耗方面存在巨大差异。本文提出了OckBench，一个模型无关和硬件无关的基准测试，用于评估推理和编码任务的准确性和token数量。通过比较多个开源和闭源模型的实验，我们发现许多准确率相当的模型在token消耗方面差异巨大，揭示了效率差异是一个被忽视但重要的区分维度。我们进一步展示了准确率-效率平面上的帕累托前沿，并主张评估范式的转变：我们不应再将token视为可以随意增加的“免费”资源。OckBench为测量、比较和指导token高效推理研究提供了一个统一的平台。我们的基准测试可在https://ockbench.github.io/ 获取。

🔬 方法详解

问题定义：现有的大语言模型（LLM）评估基准主要关注模型的准确率和输出质量，而忽略了模型在推理过程中所消耗的token数量。在实际应用中，token数量直接影响模型的推理延迟、计算成本和能源消耗。因此，如何有效地评估LLM在保证准确率的同时，降低token消耗，是一个亟待解决的问题。

核心思路：OckBench的核心思路是建立一个模型无关和硬件无关的基准测试，用于同时评估LLM在推理和编码任务中的准确率和token消耗。通过综合考虑这两个指标，可以更全面地评估LLM的性能，并为模型选择和优化提供指导。该思路旨在改变目前将token视为“免费”资源的评估范式，引导研究人员关注token效率。

技术框架：OckBench的整体框架包括以下几个主要模块：1) 任务定义模块：定义了一系列推理和编码任务，涵盖不同的难度级别和应用场景。2) 模型评估模块：针对每个任务，评估LLM的准确率和token消耗。3) 结果分析模块：对评估结果进行统计分析，生成准确率-效率帕累托前沿，并提供模型性能比较和排名。

关键创新：OckBench最重要的技术创新点在于其同时评估准确率和token消耗的综合评估方法。与现有基准测试只关注准确率不同，OckBench将token效率纳入评估体系，从而更全面地反映LLM的实际性能。此外，OckBench的设计是模型无关和硬件无关的，可以方便地应用于各种LLM和硬件平台。

关键设计：OckBench的关键设计包括：1) 任务选择：选择了具有代表性的推理和编码任务，以覆盖不同的LLM应用场景。2) 评估指标：采用标准的准确率指标和token数量作为评估指标，并定义了准确率-效率帕累托前沿，用于综合评估模型性能。3) 实验设置：设计了合理的实验设置，以保证评估结果的可靠性和可重复性。

🖼️ 关键图片

📊 实验亮点

实验结果表明，在准确率相近的情况下，不同LLM的token消耗差异巨大，最高可达数倍。OckBench揭示了现有LLM在token效率方面的不足，并展示了准确率-效率帕累托前沿，为模型选择和优化提供了重要参考。例如，某些开源模型在特定任务上，以较低的token消耗实现了与闭源模型相当的准确率。

🎯 应用场景

OckBench可应用于大语言模型的选型、优化和部署。开发者可以使用OckBench评估不同模型的token效率，选择在满足准确率要求的前提下，token消耗更低的方案，从而降低推理成本和延迟。研究人员可以利用OckBench分析模型token效率的影响因素，指导模型架构设计和训练策略优化，提升LLM的实际应用价值。

📄 摘要（原文）

Large language models such as GPT-4, Claude 3, and the Gemini series have improved automated reasoning and code generation. However, existing benchmarks mainly focus on accuracy and output quality, and they ignore an important factor: decoding token efficiency. In real systems, generating 10,000 tokens versus 100,000 tokens leads to large differences in latency, cost, and energy. In this work, we introduce OckBench, a model-agnostic and hardware-agnostic benchmark that evaluates both accuracy and token count for reasoning and coding tasks. Through experiments comparing multiple open- and closed-source models, we uncover that many models with comparable accuracy differ wildly in token consumption, revealing that efficiency variance is a neglected but significant axis of differentiation. We further demonstrate Pareto frontiers over the accuracy-efficiency plane and argue for an evaluation paradigm shift: we should no longer treat tokens as "free" to multiply. OckBench provides a unified platform for measuring, comparing, and guiding research in token-efficient reasoning. Our benchmarks are available at https://ockbench.github.io/ .

OckBench: Measuring the Efficiency of LLM Reasoning

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理