Less Is More for Multi-Step Logical Reasoning of LLM Generalisation Under Rule Removal, Paraphrasing, and Compression

作者: Qiming Bao, Xiaoxuan Fu

分类: cs.AI, cs.CL, cs.LG, cs.LO

发布日期: 2025-12-06 (更新: 2025-12-12)

💡 一句话要点

提出逻辑推理评估框架，揭示LLM在规则扰动下的泛化能力瓶颈

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 逻辑推理 泛化能力 规则扰动 评估框架

📋 核心要点

大型语言模型在逻辑推理任务中面临挑战，尤其是在规则发生结构性变化时，其泛化能力有待深入研究。
该论文提出了一种受控评估框架，通过规则删除、矛盾注入和逻辑重写等手段，系统性地测试LLM的推理可靠性。
实验结果表明，LLM在语义保持的重构下表现相对稳定，但对缺失或矛盾的证据以及复杂的逻辑变换较为敏感。

📝 摘要（中文）

大型语言模型（LLM）在许多自然语言任务上表现出色，但其在逻辑规则系统结构化扰动下的泛化能力仍未得到充分表征。本文提出了一个受控的评估框架，通过四个压力测试来探测推理可靠性：（1）规则删除，从多步推理链中移除冗余规则与必要规则；（2）矛盾证据注入；（3）基于等价律的保逻辑重写（逆否律、双重否定、蕴含转析取、德摩根定律、恒等律和交换律）；（4）组合2-5个变换的多定律等价堆叠。在BERT、Qwen2和LLaMA类模型三个代表性模型家族中，所有模型在基本分割上都达到Acc=1.0000，并且在冗余规则删除下没有性能下降。相反，必要规则删除导致显著下降到接近随机的性能，注入显式矛盾将准确率降低到0.0000。在保逻辑重写下，单定律变换在很大程度上保留了准确率，只有少数情况下略有下降，而多定律堆叠暴露了模型相关的敏感性：BERT与基本条件匹配，TinyLlama仅显示出轻微的退化，而Qwen2表现出显著下降。总体而言，结果表明，当前的LLM在语义保持的重构下通常是稳定的，但对于缺失或不一致的证据仍然很脆弱，并且可能会在组合逻辑转换下降低性能，具体取决于模型家族。所提出的框架提供了一个简洁的诊断工具，用于隔离这些故障模式，并用于评估超出表面形式变化的逻辑泛化。

🔬 方法详解

问题定义：现有的大型语言模型在逻辑推理任务中表现出一定的能力，但当逻辑规则系统发生结构性扰动时，例如规则的删除、矛盾信息的引入或规则的重写，模型的推理性能会显著下降。现有的评估方法难以全面、系统地评估LLM在这些情况下的泛化能力，缺乏针对性的诊断工具。

核心思路：该论文的核心思路是通过设计一系列受控的压力测试，系统性地评估LLM在逻辑规则系统发生结构性扰动时的推理能力。这些压力测试包括规则删除（区分冗余规则和必要规则）、矛盾证据注入以及逻辑等价变换（单定律和多定律组合）。通过观察模型在这些测试下的性能变化，可以诊断出模型的推理缺陷和脆弱性。

技术框架：该评估框架包含四个主要的压力测试：1. 规则删除：移除推理链中的冗余规则和必要规则，观察模型性能变化。2. 矛盾证据注入：向模型输入与现有规则矛盾的信息，评估其处理冲突信息的能力。3. 逻辑等价变换：使用逻辑等价律（如逆否律、德摩根定律等）重写规则，考察模型对表面形式变化的鲁棒性。4. 多定律等价堆叠：组合多个逻辑等价变换，增加规则的复杂性，评估模型在复杂逻辑推理下的性能。

关键创新：该论文的关键创新在于提出了一个系统性的、可控的评估框架，能够针对性地诊断LLM在逻辑推理方面的缺陷。该框架不仅考虑了规则的删除和矛盾信息的引入，还关注了逻辑等价变换对模型性能的影响，从而更全面地评估了LLM的逻辑泛化能力。

关键设计：在规则删除测试中，区分了冗余规则和必要规则，能够更精确地评估规则重要性对模型性能的影响。在逻辑等价变换测试中，采用了单定律和多定律组合的方式，逐步增加规则的复杂性，从而更细致地考察了模型对逻辑变换的敏感性。实验中选择了BERT、Qwen2和LLaMA类模型三个代表性模型家族，增加了结果的普适性。

📊 实验亮点

实验结果表明，所有模型在基本条件下表现良好（Acc=1.0000），但在必要规则删除和矛盾证据注入下性能显著下降。逻辑等价变换对BERT和TinyLlama影响较小，但对Qwen2有较大影响，表明不同模型对逻辑变换的敏感性不同。该框架能够有效区分不同模型的推理能力差异。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型的逻辑推理能力，尤其是在需要可靠推理的场景中，如智能问答、知识图谱推理、代码生成和安全关键型应用。通过该框架，可以诊断LLM的推理缺陷，并指导模型训练，提高其在复杂逻辑环境下的泛化能力。

📄 摘要（原文）

Large language models (LLMs) achieve strong performance on many natural language tasks, yet their generalisation under structured perturbations of logical rule systems remains insufficiently characterised. We present a controlled evaluation framework that probes reasoning reliability through four stress tests: (1) rule deletion, removing redundant versus essential rules from a multi-step inference chain; (2) contradictory evidence injection; (3) logic-preserving rewrites based on equivalence laws (contraposition, double negation, implication-to-disjunction, De Morgan, identity, and commutativity); and (4) multi-law equivalence stacking that composes 2--5 transformations. Across three representative model families -- BERT, Qwen2, and LLaMA-like models -- all models attain Acc$=1.0000$ on the base split and show no degradation under redundant rule deletion. In contrast, essential rule deletion yields a pronounced decrease to near-chance performance, and injecting explicit contradictions reduces accuracy to 0.0000. Under logic-preserving rewrites, accuracy is largely preserved for single-law transformations with only small degradations in a few cases, whereas multi-law stacking exposes model-dependent sensitivity: BERT matches the base condition, TinyLlama shows only marginal degradation, and Qwen2 exhibits a substantial drop. Overall, the results indicate that contemporary LLMs are generally stable under semantic-preserving reformulations, yet remain brittle to missing or inconsistent evidence and may degrade under composed logical transformations depending on the model family. The proposed framework provides a concise diagnostic tool for isolating these failure modes and for evaluating logical generalisation beyond surface-form variation.

Less Is More for Multi-Step Logical Reasoning of LLM Generalisation Under Rule Removal, Paraphrasing, and Compression

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理