DeduCE: Deductive Consistency as a Framework to Evaluate LLM Reasoning

📄 arXiv: 2504.07080v1 📥 PDF

作者: Atharva Pandey, Kshitij Dubey, Rahul Sharma, Amit Sharma

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-04-09


💡 一句话要点

DeduCE:提出基于演绎一致性的框架评估LLM的推理能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 推理能力评估 演绎一致性 思维链 数学问题求解

📋 核心要点

  1. 现有LLM在标准基准上表现好,但在新问题上仍有困难,缺乏对推理过程的深入评估。
  2. 提出演绎一致性指标DeduCE,分析LLM理解前提和推断结论的能力,揭示推理错误来源。
  3. 实验表明,LLM对前提数量增加鲁棒,但推理跳跃次数增加导致准确率显著下降。

📝 摘要(中文)

尽管大型语言模型在奥林匹克级别的推理问题上表现出色,但在面对标准基准之外的新型高中数学问题时,仍然会遇到困难。本文超越了最终准确率,提出了一种演绎一致性指标,用于分析语言模型的思维链输出。形式上,演绎推理涉及两个子任务:理解一组输入前提,并推断出由此得出的结论。该指标研究了语言模型在这些子任务上的表现,旨在解释语言模型在新问题上的推理错误:语言模型在上下文长度增加的情况下,对输入前提的理解程度如何?以及它们在多个推理跳跃中推断结论的能力如何?由于现有基准可能已被记忆,因此我们开发了一个pipeline,以评估语言模型在基准问题的新型扰动版本上的演绎一致性。在新型小学数学问题(GSM-8k)上,我们发现语言模型对输入前提数量的增加相当稳健,但随着推理跳跃次数的增加,准确率会显著下降。有趣的是,这些错误在原始基准中被掩盖了,因为所有模型都达到了接近100%的准确率。当我们使用合成数据集增加解决方案步骤的数量时,与理解输入前提相比,多跳预测仍然是误差的主要来源。语言风格的转变或早期误差的自然传播等其他因素并不能解释这些趋势。我们的分析提供了一种新的视角来描述语言模型的推理——作为输入前提和推理跳跃窗口上的计算——可以提供跨问题领域的统一评估。

🔬 方法详解

问题定义:现有的大型语言模型(LLM)在解决推理问题时,虽然在一些标准benchmark上表现出色,但当面对新的、未知的或者经过扰动的同类型问题时,其推理能力会显著下降。现有的评估方法主要关注最终的准确率,而忽略了对LLM推理过程的深入分析,无法有效诊断LLM推理失败的原因。

核心思路:本文的核心思路是将演绎推理过程分解为两个关键的子任务:理解输入的前提(Premise Understanding)和根据前提推断结论(Conclusion Inference)。通过分别评估LLM在这两个子任务上的表现,可以更细粒度地分析LLM的推理能力,并找出推理过程中的瓶颈。同时,通过对benchmark问题进行扰动,可以避免LLM对benchmark的记忆效应,从而更真实地评估LLM的推理能力。

技术框架:DeduCE框架主要包含以下几个步骤:1) 问题生成:基于现有的benchmark问题,通过扰动生成新的问题,以避免LLM的记忆效应。2) 推理过程分解:将推理过程分解为理解前提和推断结论两个子任务。3) 评估指标设计:设计演绎一致性指标,分别评估LLM在理解前提和推断结论两个子任务上的表现。4) 实验分析:通过实验分析LLM在不同难度级别的问题上的表现,并找出推理过程中的瓶颈。

关键创新:本文最重要的创新点在于提出了演绎一致性(Deductive Consistency)这一概念,并将其作为评估LLM推理能力的一个指标。与传统的只关注最终准确率的评估方法不同,演绎一致性关注的是LLM在推理过程中的每一步是否都符合逻辑,从而可以更全面、更深入地评估LLM的推理能力。此外,通过对benchmark问题进行扰动,可以避免LLM对benchmark的记忆效应,从而更真实地评估LLM的推理能力。

关键设计:在实验中,作者使用了GSM-8k数据集,并对其进行了扰动,生成了新的问题。作者通过控制输入前提的数量和推理跳跃的次数,来评估LLM在不同难度级别的问题上的表现。作者使用了不同的LLM模型,包括GPT-3、GPT-J等,并比较了它们在演绎一致性指标上的表现。此外,作者还分析了LLM在推理过程中出现的错误类型,并尝试找出导致这些错误的原因。

🖼️ 关键图片

img_0

📊 实验亮点

实验结果表明,LLM在GSM-8k数据集上对输入前提数量的增加具有较强的鲁棒性,但在推理跳跃次数增加时,准确率会显著下降。例如,在原始GSM-8k数据集上,LLM可以达到接近100%的准确率,但在经过扰动并增加推理跳跃次数后,准确率会显著下降。这表明LLM的推理能力在复杂推理场景中仍然存在不足,需要进一步改进。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型的推理能力,尤其是在需要复杂推理的场景中,如数学问题求解、科学研究、智能问答等。通过DeduCE框架,可以更准确地诊断LLM推理过程中的问题,并针对性地进行优化,提升LLM在实际应用中的可靠性和准确性。未来,该方法可以扩展到其他类型的推理任务,例如常识推理、逻辑推理等。

📄 摘要(原文)

Despite great performance on Olympiad-level reasoning problems, frontier large language models can still struggle on high school math when presented with novel problems outside standard benchmarks. Going beyond final accuracy, we propose a deductive consistency metric to analyze chain-of-thought output from language models (LMs).Formally, deductive reasoning involves two subtasks: understanding a set of input premises and inferring the conclusions that follow from them. The proposed metric studies LMs' performance on these subtasks, with the goal of explaining LMs' reasoning errors on novel problems: how well do LMs understand input premises with increasing context lengths, and how well can they infer conclusions over multiple reasoning hops? Since existing benchmarks may be memorized, we develop a pipeline to evaluate LMs' deductive consistency on novel, perturbed versions of benchmark problems. On novel grade school math problems (GSM-8k), we find that LMs are fairly robust to increasing number of input premises, but suffer significant accuracy decay as the number of reasoning hops is increased. Interestingly, these errors are masked in the original benchmark as all models achieve near 100% accuracy. As we increase the number of solution steps using a synthetic dataset, prediction over multiple hops still remains the major source of error compared to understanding input premises. Other factors, such as shifts in language style or natural propagation of early errors do not explain the trends. Our analysis provides a new view to characterize LM reasoning -- as computations over a window of input premises and reasoning hops -- that can provide unified evaluation across problem domains.