Less Is More for Multi-Step Logical Reasoning of LLM Generalisation Under Rule Removal, Paraphrasing, and Compression

📄 arXiv: 2512.06393v2 📥 PDF

作者: Qiming Bao, Xiaoxuan Fu

分类: cs.AI, cs.CL, cs.LG, cs.LO

发布日期: 2025-12-06 (更新: 2025-12-12)


💡 一句话要点

提出逻辑推理评估框架,揭示LLM在规则扰动下的泛化能力瓶颈

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 逻辑推理 泛化能力 规则扰动 评估框架

📋 核心要点

  1. 大型语言模型在逻辑推理任务中面临挑战,尤其是在规则发生结构性变化时,其泛化能力有待深入研究。
  2. 该论文提出了一种受控评估框架,通过规则删除、矛盾注入和逻辑重写等手段,系统性地测试LLM的推理可靠性。
  3. 实验结果表明,LLM在语义保持的重构下表现相对稳定,但对缺失或矛盾的证据以及复杂的逻辑变换较为敏感。

📝 摘要(中文)

大型语言模型(LLM)在许多自然语言任务上表现出色,但其在逻辑规则系统结构化扰动下的泛化能力仍未得到充分表征。本文提出了一个受控的评估框架,通过四个压力测试来探测推理可靠性:(1)规则删除,从多步推理链中移除冗余规则与必要规则;(2)矛盾证据注入;(3)基于等价律的保逻辑重写(逆否律、双重否定、蕴含转析取、德摩根定律、恒等律和交换律);(4)组合2-5个变换的多定律等价堆叠。在BERT、Qwen2和LLaMA类模型三个代表性模型家族中,所有模型在基本分割上都达到Acc=1.0000,并且在冗余规则删除下没有性能下降。相反,必要规则删除导致显著下降到接近随机的性能,注入显式矛盾将准确率降低到0.0000。在保逻辑重写下,单定律变换在很大程度上保留了准确率,只有少数情况下略有下降,而多定律堆叠暴露了模型相关的敏感性:BERT与基本条件匹配,TinyLlama仅显示出轻微的退化,而Qwen2表现出显著下降。总体而言,结果表明,当前的LLM在语义保持的重构下通常是稳定的,但对于缺失或不一致的证据仍然很脆弱,并且可能会在组合逻辑转换下降低性能,具体取决于模型家族。所提出的框架提供了一个简洁的诊断工具,用于隔离这些故障模式,并用于评估超出表面形式变化的逻辑泛化。

🔬 方法详解

问题定义:现有的大型语言模型在逻辑推理任务中表现出一定的能力,但当逻辑规则系统发生结构性扰动时,例如规则的删除、矛盾信息的引入或规则的重写,模型的推理性能会显著下降。现有的评估方法难以全面、系统地评估LLM在这些情况下的泛化能力,缺乏针对性的诊断工具。

核心思路:该论文的核心思路是通过设计一系列受控的压力测试,系统性地评估LLM在逻辑规则系统发生结构性扰动时的推理能力。这些压力测试包括规则删除(区分冗余规则和必要规则)、矛盾证据注入以及逻辑等价变换(单定律和多定律组合)。通过观察模型在这些测试下的性能变化,可以诊断出模型的推理缺陷和脆弱性。

技术框架:该评估框架包含四个主要的压力测试:1. 规则删除:移除推理链中的冗余规则和必要规则,观察模型性能变化。2. 矛盾证据注入:向模型输入与现有规则矛盾的信息,评估其处理冲突信息的能力。3. 逻辑等价变换:使用逻辑等价律(如逆否律、德摩根定律等)重写规则,考察模型对表面形式变化的鲁棒性。4. 多定律等价堆叠:组合多个逻辑等价变换,增加规则的复杂性,评估模型在复杂逻辑推理下的性能。

关键创新:该论文的关键创新在于提出了一个系统性的、可控的评估框架,能够针对性地诊断LLM在逻辑推理方面的缺陷。该框架不仅考虑了规则的删除和矛盾信息的引入,还关注了逻辑等价变换对模型性能的影响,从而更全面地评估了LLM的逻辑泛化能力。

关键设计:在规则删除测试中,区分了冗余规则和必要规则,能够更精确地评估规则重要性对模型性能的影响。在逻辑等价变换测试中,采用了单定律和多定律组合的方式,逐步增加规则的复杂性,从而更细致地考察了模型对逻辑变换的敏感性。实验中选择了BERT、Qwen2和LLaMA类模型三个代表性模型家族,增加了结果的普适性。

📊 实验亮点

实验结果表明,所有模型在基本条件下表现良好(Acc=1.0000),但在必要规则删除和矛盾证据注入下性能显著下降。逻辑等价变换对BERT和TinyLlama影响较小,但对Qwen2有较大影响,表明不同模型对逻辑变换的敏感性不同。该框架能够有效区分不同模型的推理能力差异。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型的逻辑推理能力,尤其是在需要可靠推理的场景中,如智能问答、知识图谱推理、代码生成和安全关键型应用。通过该框架,可以诊断LLM的推理缺陷,并指导模型训练,提高其在复杂逻辑环境下的泛化能力。

📄 摘要(原文)

Large language models (LLMs) achieve strong performance on many natural language tasks, yet their generalisation under structured perturbations of logical rule systems remains insufficiently characterised. We present a controlled evaluation framework that probes reasoning reliability through four stress tests: (1) rule deletion, removing redundant versus essential rules from a multi-step inference chain; (2) contradictory evidence injection; (3) logic-preserving rewrites based on equivalence laws (contraposition, double negation, implication-to-disjunction, De Morgan, identity, and commutativity); and (4) multi-law equivalence stacking that composes 2--5 transformations. Across three representative model families -- BERT, Qwen2, and LLaMA-like models -- all models attain Acc$=1.0000$ on the base split and show no degradation under redundant rule deletion. In contrast, essential rule deletion yields a pronounced decrease to near-chance performance, and injecting explicit contradictions reduces accuracy to 0.0000. Under logic-preserving rewrites, accuracy is largely preserved for single-law transformations with only small degradations in a few cases, whereas multi-law stacking exposes model-dependent sensitivity: BERT matches the base condition, TinyLlama shows only marginal degradation, and Qwen2 exhibits a substantial drop. Overall, the results indicate that contemporary LLMs are generally stable under semantic-preserving reformulations, yet remain brittle to missing or inconsistent evidence and may degrade under composed logical transformations depending on the model family. The proposed framework provides a concise diagnostic tool for isolating these failure modes and for evaluating logical generalisation beyond surface-form variation.