SATBench: Benchmarking LLMs' Logical Reasoning via Automated Puzzle Generation from SAT Formulas

作者: Anjiang Wei, Yuheng Wu, Yingjia Wan, Tarun Suresh, Huanmi Tan, Zhanke Zhou, Sanmi Koyejo, Ke Wang, Alex Aiken

分类: cs.AI, cs.CL, cs.LG, cs.LO

发布日期: 2025-05-20 (更新: 2025-09-22)

🔗 代码/项目: GITHUB

💡 一句话要点

SATBench：通过SAT公式自动生成逻辑谜题，评估LLM的逻辑推理能力

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 逻辑推理 大型语言模型 基准测试 布尔可满足性 SAT问题 自动化谜题生成

📋 核心要点

现有工作侧重于基于推理规则的逻辑推理，忽略了基于搜索的逻辑推理能力评估。
SATBench利用SAT问题的搜索本质，自动生成逻辑谜题，并调整难度，全面评估LLM的逻辑推理能力。
实验表明，即使是最强的LLM在困难的UNSAT问题上表现接近随机水平，存在可满足性偏差等问题。

📝 摘要（中文）

本文提出了SATBench，一个用于评估大型语言模型（LLM）逻辑推理能力的基准，它通过源自布尔可满足性（SAT）问题的逻辑谜题实现。与侧重于基于推理规则的推理（通常涉及从一组前提推导结论）的先前工作不同，我们的方法利用了SAT问题的搜索本质，其目标是找到满足指定逻辑约束集的解决方案。SATBench中的每个实例都从一个SAT公式生成，然后使用LLM将其转换为谜题。生成过程是完全自动化的，并且可以通过改变子句的数量来调整难度。所有2100个谜题都通过基于LLM和基于求解器的一致性检查进行验证，并在一个子集上进行人工验证。实验结果表明，即使是最强的模型o4-mini，在困难的UNSAT问题上也仅达到65.0%的准确率，接近50%的随机基线。我们的错误分析揭示了系统性错误，例如可满足性偏差、上下文不一致和条件省略，突出了当前LLM在基于搜索的逻辑推理方面的局限性。我们的代码和数据可在https://github.com/Anjiang-Wei/SATBench公开获取。

🔬 方法详解

问题定义：现有的大型语言模型（LLM）在逻辑推理方面存在不足，尤其是在需要进行搜索的逻辑问题上。以往的基准测试主要集中在基于推理规则的逻辑推理，而忽略了基于搜索的逻辑推理能力。因此，需要一个能够有效评估LLM在解决需要搜索的逻辑问题上的能力的基准。

核心思路：本文的核心思路是利用布尔可满足性（SAT）问题来生成逻辑谜题，并使用这些谜题来评估LLM的逻辑推理能力。SAT问题本质上是一个搜索问题，需要找到满足一组逻辑约束的解。通过将SAT公式转化为自然语言描述的谜题，可以测试LLM理解和解决复杂逻辑约束的能力。这种方法能够更全面地评估LLM的逻辑推理能力，特别是其在搜索问题上的表现。

技术框架：SATBench的整体框架包括以下几个主要阶段：1) SAT公式生成：使用随机SAT公式生成器生成不同难度的SAT公式，难度通过子句数量进行控制。2) 谜题生成：使用LLM将SAT公式转化为自然语言描述的逻辑谜题。3) 谜题验证：使用LLM和SAT求解器对生成的谜题进行一致性检查，确保谜题的逻辑正确性。4) LLM评估：使用不同的LLM来解决生成的谜题，并评估其准确率。5) 错误分析：对LLM的错误进行分析，找出其在逻辑推理方面的局限性。

关键创新：SATBench的关键创新在于：1) 提出了一种基于SAT公式自动生成逻辑谜题的方法，可以灵活控制谜题的难度。2) 构建了一个包含2100个验证过的逻辑谜题的基准数据集，可以用于评估LLM的逻辑推理能力。3) 通过实验和错误分析，揭示了当前LLM在基于搜索的逻辑推理方面的局限性，例如可满足性偏差、上下文不一致和条件省略。

关键设计：在谜题生成阶段，使用了Prompt Engineering来指导LLM生成高质量的自然语言描述的谜题。在谜题验证阶段，同时使用了LLM和SAT求解器进行一致性检查，以确保谜题的逻辑正确性。在实验评估阶段，使用了不同的LLM模型进行对比，并对LLM的错误进行了详细的分析。

🖼️ 关键图片

📊 实验亮点

实验结果表明，即使是最强的模型o4-mini，在困难的UNSAT问题上也仅达到65.0%的准确率，接近50%的随机基线。这表明当前LLM在基于搜索的逻辑推理方面存在明显的局限性。错误分析揭示了系统性错误，例如可满足性偏差、上下文不一致和条件省略。

🎯 应用场景

SATBench可用于评估和提升LLM在逻辑推理、问题解决和决策制定等方面的能力。该基准可以帮助研究人员更好地理解LLM的优势和局限性，并开发更有效的训练方法和模型架构。此外，SATBench还可以应用于教育领域，用于设计逻辑思维训练工具和评估学生的逻辑推理能力。

📄 摘要（原文）

We introduce SATBench, a benchmark for evaluating the logical reasoning capabilities of large language models (LLMs) through logical puzzles derived from Boolean satisfiability (SAT) problems. Unlike prior work that focuses on inference rule-based reasoning, which often involves deducing conclusions from a set of premises, our approach leverages the search-based nature of SAT problems, where the objective is to find a solution that fulfills a specified set of logical constraints. Each instance in SATBench is generated from a SAT formula, then translated into a puzzle using LLMs. The generation process is fully automated and allows for adjustable difficulty by varying the number of clauses. All 2100 puzzles are validated through both LLM-based and solver-based consistency checks, with human validation on a subset. Experimental results show that even the strongest model, o4-mini, achieves only 65.0% accuracy on hard UNSAT problems, close to the random baseline of 50%. Our error analysis reveals systematic failures such as satisfiability bias, context inconsistency, and condition omission, highlighting limitations of current LLMs in search-based logical reasoning. Our code and data are publicly available at https://github.com/Anjiang-Wei/SATBench

SATBench: Benchmarking LLMs' Logical Reasoning via Automated Puzzle Generation from SAT Formulas

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理