BrainBench: Exposing the Commonsense Reasoning Gap in Large Language Models

作者: Yuzhe Tang

分类: cs.AI

发布日期: 2026-03-16

💡 一句话要点

BrainBench：揭示大型语言模型中常识推理的差距

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 常识推理 大型语言模型 基准测试 脑筋急转弯 零样本学习

📋 核心要点

现有大型语言模型在常识推理方面存在明显不足，无法解决人类轻易解决的问题。
提出BrainBench基准，包含针对特定常识推理失败模式设计的脑筋急转弯问题。
实验结果表明，即使是顶尖模型在BrainBench上的表现也远非完美，存在推理一致性问题。

📝 摘要（中文）

大型语言模型（LLMs）在标准基准测试中取得了令人印象深刻的分数，但经常无法回答人类可以立即正确回答的问题。我们推出了BrainBench，这是一个包含100个脑筋急转弯问题的基准，涵盖20个精心设计的类别，每个类别都针对LLMs中特定的常识推理失败模式。这些类别包括隐式的物理约束（“我应该步行还是开车去租车归还处？”）、语义范围技巧和默认假设劫持。我们使用零样本协议，对来自Claude系列的四个模型和来自GPT系列的四个模型共八个前沿模型进行了评估，每个问题进行10次独立运行。最佳模型Claude Opus 4.6（具有扩展思维）的准确率仅为80.3％；最差模型GPT-4o的得分仅为39.7％。即使是表现最佳的模型，其准确率和一致性之间也存在6-16个百分点的差距，揭示了随机推理。在中文中的跨语言评估表明，大多数模型的性能下降了2-8个百分点，证实了这些失败反映了推理缺陷，而不是特定于语言的人工产物。BrainBench提供了一个细粒度的诊断工具，用于识别LLMs在何处以及为何用表面启发式方法代替真正的常识推理。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在常识推理方面存在的不足。尽管LLMs在许多标准基准测试中表现出色，但它们在需要基本常识的问题上经常失败。现有方法未能充分评估和诊断LLMs在常识推理方面的缺陷，缺乏细粒度的评估工具。

核心思路：论文的核心思路是构建一个专门用于测试LLMs常识推理能力的基准测试集，即BrainBench。BrainBench包含一系列精心设计的脑筋急转弯问题，这些问题涵盖了多种常识推理的失败模式，旨在揭示LLMs在理解物理约束、语义范围和默认假设等方面的不足。

技术框架：BrainBench基准测试包含100个脑筋急转弯问题，分为20个类别，每个类别针对LLMs中特定的常识推理失败模式。论文采用零样本协议评估了8个前沿模型（Claude系列和GPT系列各4个），每个问题进行10次独立运行。此外，还进行了中文的跨语言评估，以验证推理缺陷而非语言特定的人工产物。

关键创新：BrainBench的关键创新在于其细粒度的诊断能力。它不仅可以评估LLMs的整体常识推理能力，还可以识别LLMs在哪些特定类型的常识推理问题上存在困难。这有助于研究人员更好地理解LLMs的局限性，并开发更有效的常识推理方法。与现有基准测试相比，BrainBench更侧重于揭示LLMs的推理缺陷，而非仅仅评估其语言能力。

关键设计：BrainBench中的问题设计考虑了多种常识推理的失败模式，例如隐式的物理约束、语义范围技巧和默认假设劫持。评估过程中，采用零样本协议，避免了模型对训练数据的依赖。通过多次独立运行，可以评估模型的推理一致性。跨语言评估则用于验证推理缺陷的普遍性。

🖼️ 关键图片

📊 实验亮点

BrainBench评估结果显示，即使是表现最佳的Claude Opus 4.6模型，准确率也仅为80.3%，而GPT-4o的得分仅为39.7%。顶尖模型在准确率和一致性之间存在6-16个百分点的差距，表明存在随机推理现象。跨语言评估显示，模型在中文环境下的性能下降2-8个百分点，证实了推理缺陷而非语言特定问题。

🎯 应用场景

BrainBench可用于评估和诊断大型语言模型的常识推理能力，指导模型改进和优化。该基准测试有助于开发更可靠、更智能的AI系统，可应用于智能助手、自动驾驶、医疗诊断等领域，提升AI在复杂现实场景中的表现。

📄 摘要（原文）

Large language models (LLMs) achieve impressive scores on standard benchmarks yet routinely fail questions that any human would answer correctly in seconds. We introduce BrainBench, a benchmark of 100 brainteaser questions spanning 20 carefully designed categories, each targeting a specific commonsense reasoning failure mode in LLMs. Categories range from implicit physical constraints ("Should I walk or drive my rental car to the return lot?") to semantic scope tricks and default assumption hijacks. We evaluate eight frontier models -- four from the Claude family and four from the GPT family -- using a zero-shot protocol with 10 independent runs per question. The best model, Claude Opus 4.6 with extended thinking, achieves only 80.3% accuracy; the worst, GPT-4o, scores 39.7%. Even top-performing models exhibit a 6-16 percentage-point gap between accuracy and consistency, revealing stochastic reasoning. Cross-lingual evaluation in Chinese shows most models degrade by 2-8 percentage points, confirming that these failures reflect reasoning deficits rather than language-specific artifacts. BrainBench provides a fine-grained diagnostic tool for identifying where and why LLMs substitute surface heuristics for genuine commonsense reasoning.

BrainBench: Exposing the Commonsense Reasoning Gap in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理