RiddleBench: A New Generative Reasoning Benchmark for LLMs

作者: Deepon Halder, Alan Saji, Thanmay Jayakumar, Ratish Puduppully, Anoop Kunchukuttan, Raj Dabre

分类: cs.CL

发布日期: 2025-10-28

💡 一句话要点

RiddleBench：用于评估LLM生成式推理能力的新型基准测试

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理基准 生成式推理 逻辑推理 空间推理 约束满足 谜题 模型评估

📋 核心要点

现有推理基准主要评估结构化技能，缺乏对LLM灵活、多方面推理能力的有效评估。
RiddleBench通过包含1737个谜题，旨在探测LLM在逻辑演绎、空间感知和约束满足方面的推理能力。
实验表明，即使是顶尖LLM在RiddleBench上的表现也仅略高于60%，揭示了其推理能力的根本性弱点。

📝 摘要（中文）

大型语言模型在许多已建立的推理基准测试中表现出强大的性能。然而，这些基准测试主要评估量化问题解决等结构化技能，在评估人类智能核心的灵活、多方面的推理能力方面存在差距。这些能力需要将逻辑演绎与空间感知和约束满足相结合，而目前的评估方法对此衡量不足。为了解决这个问题，我们引入了RiddleBench，这是一个包含1737个具有挑战性的英语谜题的基准测试，旨在探测这些核心推理能力。对RiddleBench上最先进模型的评估显示出根本性的弱点。即使是像Gemini 2.5 Pro、o3和Claude 4 Sonnet这样的顶级专有模型，其准确率也仅略高于60%（分别为60.30%、63.37%和63.16%）。分析进一步揭示了深度失败，包括幻觉级联（接受来自其他模型的有缺陷的推理）和由于强烈的自我确认偏差导致的糟糕的自我纠正。他们的推理也很脆弱，当约束条件重新排序或引入无关信息时，性能会显著下降。RiddleBench可以作为这些问题的诊断工具，并作为指导开发更强大和可靠的语言模型的资源。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）推理基准测试主要集中在结构化任务上，例如数学问题求解，而忽略了人类智能中至关重要的灵活、多方面的推理能力。这些能力涉及逻辑推理、空间感知和约束满足的综合运用。因此，现有基准无法充分评估LLM在解决需要综合推理的复杂问题时的能力。现有方法的痛点在于缺乏能够有效衡量这些能力的基准。

核心思路：RiddleBench的核心思路是创建一个包含大量具有挑战性的谜题的数据集，这些谜题需要LLM进行逻辑演绎、空间推理和约束满足。通过评估LLM在解决这些谜题时的表现，可以更全面地了解其推理能力。这种设计旨在模拟人类解决复杂问题的过程，从而更真实地评估LLM的智能水平。

技术框架：RiddleBench的整体框架包括以下几个关键步骤：1) 谜题收集与筛选：收集各种来源的谜题，并根据难度、推理类型等标准进行筛选。2) 数据集构建：将筛选后的谜题整理成统一的格式，并进行标注。3) 模型评估：使用LLM对RiddleBench中的谜题进行解答，并评估其准确率、推理过程等指标。4) 结果分析：分析LLM的错误类型、推理模式等，从而深入了解其推理能力的优缺点。

关键创新：RiddleBench最重要的创新点在于其专注于评估LLM的生成式推理能力，特别是逻辑演绎、空间感知和约束满足的综合运用。与现有基准相比，RiddleBench更侧重于考察LLM在解决需要灵活推理和知识整合的复杂问题时的表现。此外，该基准还揭示了现有LLM在幻觉级联、自我确认偏差等方面的缺陷。

关键设计：RiddleBench包含1737个英语谜题，这些谜题涵盖了各种推理类型，例如逻辑推理、空间推理、时间推理等。谜题的难度经过精心设计，以确保能够有效区分不同LLM的推理能力。评估指标主要包括准确率，同时也关注LLM的推理过程，例如推理步骤、中间结果等。此外，论文还分析了LLM在不同类型的谜题上的表现，从而更全面地了解其推理能力。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是Gemini 2.5 Pro、o3和Claude 4 Sonnet等顶尖专有模型在RiddleBench上的准确率也仅略高于60%（分别为60.30%、63.37%和63.16%）。此外，研究还揭示了这些模型在幻觉级联、自我确认偏差以及对约束条件顺序敏感等方面的缺陷，表明现有LLM在复杂推理方面仍有很大的提升空间。

🎯 应用场景

RiddleBench可用于评估和改进大型语言模型的推理能力，尤其是在需要逻辑、空间和约束推理的领域，如机器人导航、游戏AI、智能规划和决策支持系统。通过诊断LLM的推理缺陷，RiddleBench有助于开发更可靠和鲁棒的AI系统，从而提升其在实际应用中的性能和安全性。

📄 摘要（原文）

Large Language Models have demonstrated strong performance on many established reasoning benchmarks. However, these benchmarks primarily evaluate structured skills like quantitative problem-solving, leaving a gap in assessing flexible, multifaceted reasoning abilities that are central to human intelligence. These abilities require integrating logical deduction with spatial awareness and constraint satisfaction, which current evaluations do not measure well. To address this, we introduce RiddleBench, a benchmark of 1,737 challenging puzzles in English designed to probe these core reasoning capabilities. Evaluation of state-of-the-art models on RiddleBench shows fundamental weaknesses. Even top proprietary models like Gemini 2.5 Pro, o3, and Claude 4 Sonnet achieve accuracy just above 60% (60.30%, 63.37%, and 63.16%). Analysis further reveals deep failures, including hallucination cascades (accepting flawed reasoning from other models) and poor self-correction due to a strong self-confirmation bias. Their reasoning is also fragile, with performance degrading significantly when constraints are reordered or irrelevant information is introduced. RiddleBench functions as a diagnostic tool for these issues and as a resource for guiding the development of more robust and reliable language models.

RiddleBench: A New Generative Reasoning Benchmark for LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理