BrainBench: Exposing the Commonsense Reasoning Gap in Large Language Models

📄 arXiv: 2603.14761v1 📥 PDF

作者: Yuzhe Tang

分类: cs.AI

发布日期: 2026-03-16


💡 一句话要点

BrainBench:揭示大型语言模型中常识推理的差距

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 常识推理 大型语言模型 基准测试 脑筋急转弯 零样本学习

📋 核心要点

  1. 现有大型语言模型在常识推理方面存在明显不足,无法解决人类轻易解决的问题。
  2. 提出BrainBench基准,包含针对特定常识推理失败模式设计的脑筋急转弯问题。
  3. 实验结果表明,即使是顶尖模型在BrainBench上的表现也远非完美,存在推理一致性问题。

📝 摘要(中文)

大型语言模型(LLMs)在标准基准测试中取得了令人印象深刻的分数,但经常无法回答人类可以立即正确回答的问题。我们推出了BrainBench,这是一个包含100个脑筋急转弯问题的基准,涵盖20个精心设计的类别,每个类别都针对LLMs中特定的常识推理失败模式。这些类别包括隐式的物理约束(“我应该步行还是开车去租车归还处?”)、语义范围技巧和默认假设劫持。我们使用零样本协议,对来自Claude系列的四个模型和来自GPT系列的四个模型共八个前沿模型进行了评估,每个问题进行10次独立运行。最佳模型Claude Opus 4.6(具有扩展思维)的准确率仅为80.3%;最差模型GPT-4o的得分仅为39.7%。即使是表现最佳的模型,其准确率和一致性之间也存在6-16个百分点的差距,揭示了随机推理。在中文中的跨语言评估表明,大多数模型的性能下降了2-8个百分点,证实了这些失败反映了推理缺陷,而不是特定于语言的人工产物。BrainBench提供了一个细粒度的诊断工具,用于识别LLMs在何处以及为何用表面启发式方法代替真正的常识推理。

🔬 方法详解

问题定义:论文旨在解决大型语言模型(LLMs)在常识推理方面存在的不足。尽管LLMs在许多标准基准测试中表现出色,但它们在需要基本常识的问题上经常失败。现有方法未能充分评估和诊断LLMs在常识推理方面的缺陷,缺乏细粒度的评估工具。

核心思路:论文的核心思路是构建一个专门用于测试LLMs常识推理能力的基准测试集,即BrainBench。BrainBench包含一系列精心设计的脑筋急转弯问题,这些问题涵盖了多种常识推理的失败模式,旨在揭示LLMs在理解物理约束、语义范围和默认假设等方面的不足。

技术框架:BrainBench基准测试包含100个脑筋急转弯问题,分为20个类别,每个类别针对LLMs中特定的常识推理失败模式。论文采用零样本协议评估了8个前沿模型(Claude系列和GPT系列各4个),每个问题进行10次独立运行。此外,还进行了中文的跨语言评估,以验证推理缺陷而非语言特定的人工产物。

关键创新:BrainBench的关键创新在于其细粒度的诊断能力。它不仅可以评估LLMs的整体常识推理能力,还可以识别LLMs在哪些特定类型的常识推理问题上存在困难。这有助于研究人员更好地理解LLMs的局限性,并开发更有效的常识推理方法。与现有基准测试相比,BrainBench更侧重于揭示LLMs的推理缺陷,而非仅仅评估其语言能力。

关键设计:BrainBench中的问题设计考虑了多种常识推理的失败模式,例如隐式的物理约束、语义范围技巧和默认假设劫持。评估过程中,采用零样本协议,避免了模型对训练数据的依赖。通过多次独立运行,可以评估模型的推理一致性。跨语言评估则用于验证推理缺陷的普遍性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

BrainBench评估结果显示,即使是表现最佳的Claude Opus 4.6模型,准确率也仅为80.3%,而GPT-4o的得分仅为39.7%。顶尖模型在准确率和一致性之间存在6-16个百分点的差距,表明存在随机推理现象。跨语言评估显示,模型在中文环境下的性能下降2-8个百分点,证实了推理缺陷而非语言特定问题。

🎯 应用场景

BrainBench可用于评估和诊断大型语言模型的常识推理能力,指导模型改进和优化。该基准测试有助于开发更可靠、更智能的AI系统,可应用于智能助手、自动驾驶、医疗诊断等领域,提升AI在复杂现实场景中的表现。

📄 摘要(原文)

Large language models (LLMs) achieve impressive scores on standard benchmarks yet routinely fail questions that any human would answer correctly in seconds. We introduce BrainBench, a benchmark of 100 brainteaser questions spanning 20 carefully designed categories, each targeting a specific commonsense reasoning failure mode in LLMs. Categories range from implicit physical constraints ("Should I walk or drive my rental car to the return lot?") to semantic scope tricks and default assumption hijacks. We evaluate eight frontier models -- four from the Claude family and four from the GPT family -- using a zero-shot protocol with 10 independent runs per question. The best model, Claude Opus 4.6 with extended thinking, achieves only 80.3% accuracy; the worst, GPT-4o, scores 39.7%. Even top-performing models exhibit a 6-16 percentage-point gap between accuracy and consistency, revealing stochastic reasoning. Cross-lingual evaluation in Chinese shows most models degrade by 2-8 percentage points, confirming that these failures reflect reasoning deficits rather than language-specific artifacts. BrainBench provides a fine-grained diagnostic tool for identifying where and why LLMs substitute surface heuristics for genuine commonsense reasoning.