From Blind Solvers to Logical Thinkers: Benchmarking LLMs' Logical Integrity on Faulty Mathematical Problems

📄 arXiv: 2410.18921v2 📥 PDF

作者: A M Muntasir Rahman, Junyi Ye, Wei Yao, Sierra S. Liu, Jesse Yu, Jonathan Yu, Wenpeng Yin, Guiling Wang

分类: cs.CL, cs.AI, cs.LO

发布日期: 2024-10-24 (更新: 2025-04-04)


💡 一句话要点

FaultyMath:评估LLM在错误数学问题上的逻辑一致性,揭示其“盲解”本质

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 逻辑推理 数学问题 错误检测 基准数据集

📋 核心要点

  1. 现有LLM在解决数学问题时,常常忽略问题本身的逻辑合理性,直接进行计算,缺乏深层推理能力。
  2. 论文构建FaultyMath基准数据集,包含多种错误类型的数学问题,用于评估LLM的逻辑一致性。
  3. 实验结果表明,现有LLM在很大程度上是“盲解者”,无法有效识别和处理逻辑错误的数学问题。

📝 摘要(中文)

本文旨在探究大型语言模型(LLM)在处理数学问题时,是仅仅作为“盲解者”应用数学运算,还是能够作为“逻辑思考者”识别逻辑不一致性。为此,作者提出了一个名为FaultyMath的基准数据集,该数据集包含多种类型的错误数学问题,涵盖代数、几何、数论等多个数学类别,具有不同的难度级别,并且错误来源多样,包括违反常识、含糊不清的陈述以及数学矛盾等。作者使用FaultyMath评估了各种LLM,包括开源模型、闭源模型和数学专用模型,从三个维度进行评估:(i)模型在没有明确提示的情况下检测错误数学问题的准确性;(ii)当提供关于问题有效性的提示(正确或误导性)时,LLM在多大程度上能够适应并成为可靠的逻辑思考者;(iii)当LLM识别出数学问题存在缺陷时,其生成的解释的可信度。实验结果表明,现有的LLM主要作为“盲解者”运行,缺乏作为“逻辑思考者”所需的推理能力。

🔬 方法详解

问题定义:论文旨在解决LLM在处理数学问题时缺乏逻辑推理能力的问题。现有方法通常侧重于提高LLM的计算准确性,而忽略了对问题本身逻辑合理性的判断。这种“盲解”方式可能导致LLM在面对包含逻辑错误的数学问题时,仍然给出错误的答案,而无法识别问题中的矛盾或不合理之处。

核心思路:论文的核心思路是构建一个包含多种逻辑错误的数学问题的数据集,并利用该数据集来评估LLM的逻辑推理能力。通过观察LLM在面对这些错误问题时的表现,可以判断其是否具备识别和处理逻辑错误的能力,从而区分“盲解者”和“逻辑思考者”。

技术框架:论文主要包含以下几个部分:1) 构建FaultyMath数据集,该数据集包含多种类型的错误数学问题,涵盖不同的数学类别和难度级别。2) 选择一系列LLM进行评估,包括开源模型、闭源模型和数学专用模型。3) 设计实验方案,从多个维度评估LLM的逻辑推理能力,例如检测错误问题的准确性、对提示的适应性以及生成解释的可信度。4) 分析实验结果,得出关于LLM逻辑推理能力的结论。

关键创新:论文的关键创新在于提出了FaultyMath数据集,该数据集专门用于评估LLM在处理逻辑错误的数学问题时的表现。与以往侧重于计算准确性的数据集不同,FaultyMath更加关注LLM的逻辑推理能力,能够更全面地评估LLM在数学问题解决方面的能力。

关键设计:FaultyMath数据集包含多种类型的错误,例如违反常识、含糊不清的陈述以及数学矛盾等。这些错误的设计旨在模拟真实世界中可能出现的各种逻辑错误,从而更真实地评估LLM的逻辑推理能力。此外,实验方案还包括对LLM提供正确或误导性提示,以观察LLM对提示的适应性。

📊 实验亮点

实验结果表明,即使是数学专用LLM,在FaultyMath数据集上的表现也远低于人类水平,表明现有LLM在逻辑推理方面存在明显不足。此外,实验还发现,LLM对误导性提示的适应性较强,容易受到干扰,进一步证实了其“盲解”的本质。

🎯 应用场景

该研究成果可应用于提升LLM在数学教育、科学研究等领域的可靠性。通过提高LLM的逻辑推理能力,可以减少其在处理复杂问题时出现错误的可能性,从而提高其应用价值。未来,该研究还可以扩展到其他领域,例如自然语言理解、知识图谱等,以提高LLM在更广泛领域的应用能力。

📄 摘要(原文)

Consider the math problem: "Lily received 3 cookies from her best friend yesterday and ate 5 for breakfast. Today, her friend gave her 3 more cookies. How many cookies does Lily have now?" Many large language models (LLMs) in previous research approach this problem by calculating the answer "1" using the equation "3 - 5 + 3." However, from a human perspective, we recognize the inherent flaw in this problem: Lily cannot eat 5 cookies if she initially only had 3. This discrepancy prompts a key question: Are current LLMs merely Blind Solver that apply mathematical operations without deeper reasoning, or can they function as Logical Thinker capable of identifying logical inconsistencies? To explore this question, we propose a benchmark dataset, FaultyMath, which includes faulty math problems of rich diversity: i) multiple mathematical categories, e.g., algebra, geometry, number theory, etc., ii) varying levels of difficulty, and iii) different origins of faultiness -- ranging from violations of common sense and ambiguous statements to mathematical contradictions and more. We evaluate a broad spectrum of LLMs, including open-source, closed-source, and math-specialized models, using FaultyMath across three dimensions: (i) How accurately can the models detect faulty math problems without being explicitly prompted to do so? (ii) When provided with hints -- either correct or misleading -- about the validity of the problems, to what extent do LLMs adapt to become reliable Logical Thinker? (iii) How trustworthy are the explanations generated by LLMs when they recognize a math problem as flawed? Through extensive experimentation and detailed analysis, our results demonstrate that existing LLMs largely function as Blind Solver and fall short of the reasoning capabilities required to perform as Logical Thinker.