ReasonBENCH: Benchmarking the (In)Stability of LLM Reasoning
作者: Nearchos Potamitis, Lars Klein, Akhil Arora
分类: cs.AI, cs.CL, cs.LG
发布日期: 2025-12-08
备注: 11 pages, 3 tables, 4 figures
🔗 代码/项目: GITHUB
💡 一句话要点
ReasonBENCH:评估LLM推理不稳定性的基准测试框架
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 LLM推理 基准测试 不稳定性 可重复性 多运行评估 方差分析
📋 核心要点
- 现有LLM推理评估主要关注单次运行准确率,忽略了随机解码带来的不确定性,导致性能评估不稳定。
- ReasonBENCH旨在量化LLM推理中的不稳定性,通过多运行协议提供质量和成本的统计可靠指标。
- 实验表明,现有推理策略和模型普遍存在高度不稳定性,即使平均性能相似,稳定性也可能差异巨大。
📝 摘要(中文)
大型语言模型(LLM)越来越多地应用于需要推理的场景,例如多步骤问题解决和思维链。然而,目前的评估方法主要报告单次运行的准确率,忽略了随机解码带来的内在不确定性。这种疏忽导致从业者无法可靠地评估方法的性能是否稳定、可复现或成本一致。我们提出了ReasonBENCH,这是第一个旨在量化LLM推理中潜在不稳定性的基准测试。ReasonBENCH提供:(i)一个模块化的评估库,用于标准化推理框架、模型和任务;(ii)一个多运行协议,用于报告质量和成本的统计可靠指标;(iii)一个公共排行榜,以鼓励方差感知报告。在不同领域的任务中,我们发现绝大多数推理策略和模型都表现出高度的不稳定性。值得注意的是,即使平均性能相似的策略也可能显示出高达四倍的置信区间宽度,并且性能最佳的方法通常会产生更高且更不稳定的成本。这种不稳定性会损害跨运行的可重复性,从而损害报告性能的可靠性。为了更好地理解这些动态,我们进一步分析了提示、模型系列和规模对解决率和稳定性之间权衡的影响。我们的结果强调了可重复性是可靠LLM推理的关键维度,并为未来的推理方法和不确定性量化技术奠定了基础。ReasonBENCH可在https://github.com/au-clan/ReasonBench公开获取。
🔬 方法详解
问题定义:论文旨在解决LLM推理结果不稳定、可重复性差的问题。现有评估方法只关注单次运行的准确率,忽略了LLM随机解码带来的内在不确定性,导致无法可靠评估方法的性能。这种不稳定性使得研究人员难以判断一个方法的提升是真实有效,还是仅仅是偶然现象。
核心思路:论文的核心思路是通过多次运行相同的推理任务,统计分析LLM推理结果的方差,从而量化其不稳定性。通过引入多运行协议,可以更准确地评估LLM推理的性能,并识别出稳定且可靠的方法。同时,也考虑了成本因素,评估不同方法的成本稳定性和效率。
技术框架:ReasonBENCH包含三个主要组成部分:(1) 模块化的评估库,用于标准化推理框架、模型和任务;(2) 多运行协议,用于报告质量和成本的统计可靠指标;(3) 公共排行榜,用于鼓励方差感知报告。评估库支持多种推理策略和模型,并提供了一系列常用的推理任务。多运行协议定义了多次运行推理任务的标准流程,并提供了计算性能指标(如准确率、成本)及其方差的工具。
关键创新:ReasonBENCH最重要的创新在于引入了多运行评估协议,将推理结果的稳定性纳入评估指标。这与传统的单次运行评估方法形成了鲜明对比,能够更全面地反映LLM推理的真实性能。此外,ReasonBENCH还提供了一个公共排行榜,鼓励研究人员报告方差感知的性能指标,从而促进了LLM推理研究的透明性和可重复性。
关键设计:ReasonBENCH的关键设计包括:(1) 多运行次数的设置,需要根据任务的复杂度和模型的稳定性进行调整,以获得可靠的统计结果;(2) 性能指标的选择,除了准确率之外,还考虑了成本因素,如token数量、运行时间等;(3) 方差计算方法,采用了标准差、置信区间等统计指标来量化推理结果的不稳定性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,大多数推理策略和模型都表现出高度的不稳定性。即使平均性能相似的策略,其置信区间宽度也可能相差四倍。性能最佳的方法往往成本更高且更不稳定。这些发现强调了可重复性是可靠LLM推理的关键维度。
🎯 应用场景
ReasonBENCH可用于评估和比较不同LLM推理方法和模型的稳定性,帮助研究人员和从业者选择更可靠的推理方案。它还可以用于指导LLM推理算法的设计,提高推理结果的可重复性和可靠性。此外,该基准测试还有助于推动不确定性量化技术在LLM推理中的应用。
📄 摘要(原文)
Large language models (LLMs) are increasingly deployed in settings where reasoning, such as multi-step problem solving and chain-of-thought, is essential. Yet, current evaluation practices overwhelmingly report single-run accuracy while ignoring the intrinsic uncertainty that naturally arises from stochastic decoding. This omission creates a blind spot because practitioners cannot reliably assess whether a method's reported performance is stable, reproducible, or cost-consistent. We introduce ReasonBENCH, the first benchmark designed to quantify the underlying instability in LLM reasoning. ReasonBENCH provides (i) a modular evaluation library that standardizes reasoning frameworks, models, and tasks, (ii) a multi-run protocol that reports statistically reliable metrics for both quality and cost, and (iii) a public leaderboard to encourage variance-aware reporting. Across tasks from different domains, we find that the vast majority of reasoning strategies and models exhibit high instability. Notably, even strategies with similar average performance can display confidence intervals up to four times wider, and the top-performing methods often incur higher and less stable costs. Such instability compromises reproducibility across runs and, consequently, the reliability of reported performance. To better understand these dynamics, we further analyze the impact of prompts, model families, and scale on the trade-off between solve rate and stability. Our results highlight reproducibility as a critical dimension for reliable LLM reasoning and provide a foundation for future reasoning methods and uncertainty quantification techniques. ReasonBENCH is publicly available at https://github.com/au-clan/ReasonBench .