Logical Phase Transitions: Understanding Collapse in LLM Logical Reasoning

📄 arXiv: 2601.02902v1 📥 PDF

作者: Xinglang Zhang, Yunyao Zhang, ZeLiang Chen, Junqing Yu, Wei Yang, Zikai Song

分类: cs.AI, cs.CL, cs.LO

发布日期: 2026-01-06

🔗 代码/项目: GITHUB


💡 一句话要点

揭示LLM逻辑推理的相变现象,提出神经符号课程调优方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 逻辑推理 大型语言模型 相变现象 神经符号学习 课程学习

📋 核心要点

  1. 大型语言模型在复杂逻辑推理中存在“逻辑相变”现象,即性能在达到一定逻辑深度后会突然崩溃。
  2. 提出神经符号课程调优框架,通过对齐自然语言和逻辑符号,并围绕相变边界调整训练,提升推理能力。
  3. 实验结果表明,该方法能有效缓解高复杂度下的逻辑推理崩溃,并提升模型对未见逻辑组合的泛化能力。

📝 摘要(中文)

本文系统性地分析了大型语言模型(LLM)在逻辑复杂度逐步增加情况下的逻辑推理能力,揭示了一种先前未被认识的现象,即“逻辑相变”。与平滑退化不同,逻辑推理性能在一个范围内保持稳定,但超过临界逻辑深度后会突然崩溃,类似于物理相变。基于此,本文提出了一种神经符号课程调优(Neuro-Symbolic Curriculum Tuning)框架,该框架自适应地将自然语言与逻辑符号对齐,以建立共享表示,并围绕相变边界重塑训练动态,从而逐步加强在增加的逻辑深度上的推理能力。在五个基准测试上的实验表明,该方法有效地缓解了高复杂度下的逻辑推理崩溃,在朴素提示中平均准确率提高了+1.26,在CoT中提高了+3.95,同时提高了对未见过的逻辑组合的泛化能力。

🔬 方法详解

问题定义:大型语言模型在符号逻辑推理方面面临挑战,尤其是在逻辑复杂度增加时,性能会突然崩溃,这种现象被称为“逻辑相变”。现有的方法难以有效应对这种突变,导致模型在高复杂度逻辑推理任务中表现不佳。

核心思路:本文的核心思路是通过神经符号课程调优,将自然语言和逻辑符号对齐,建立共享表示,并利用课程学习的思想,逐步增加逻辑复杂度,从而使模型能够更好地学习和泛化到更复杂的逻辑推理任务。通过围绕相变边界调整训练动态,可以更有效地提升模型的推理能力。

技术框架:该方法包含两个主要部分:1) 自然语言与逻辑符号对齐:使用对比学习或类似技术,将自然语言描述的逻辑规则与相应的逻辑符号表达式对齐,从而建立共享表示空间。2) 课程学习:从简单的逻辑推理任务开始,逐步增加逻辑复杂度,并根据模型的性能动态调整训练样本的难度。在相变边界附近,增加训练样本的多样性,以帮助模型克服性能瓶颈。

关键创新:该方法最重要的创新点在于发现了LLM逻辑推理的“逻辑相变”现象,并针对这一现象提出了神经符号课程调优框架。与传统的训练方法不同,该方法不是简单地增加训练数据,而是通过对齐自然语言和逻辑符号,并围绕相变边界调整训练动态,从而更有效地提升模型的推理能力。

关键设计:在自然语言与逻辑符号对齐方面,可以使用对比学习损失函数,例如InfoNCE,来最大化对齐的自然语言描述和逻辑符号表达式之间的互信息。在课程学习方面,可以根据模型的推理准确率动态调整训练样本的逻辑深度。例如,如果模型在某个逻辑深度上的准确率低于阈值,则增加该逻辑深度附近的训练样本数量。此外,还可以使用数据增强技术,生成更多样化的训练样本,以提高模型的泛化能力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,神经符号课程调优方法在五个基准测试上均取得了显著的性能提升。在朴素提示下,平均准确率提高了+1.26,而在CoT(Chain-of-Thought)提示下,平均准确率提高了+3.95。此外,该方法还提高了模型对未见过的逻辑组合的泛化能力,表明其具有较强的鲁棒性和适应性。

🎯 应用场景

该研究成果可应用于需要可靠和可验证决策的高风险领域,如数学推理、法律判决、金融风险评估等。通过提升LLM的逻辑推理能力,可以使其在这些领域提供更准确、更可信的决策支持,并有望推动人工智能在这些领域的更广泛应用。

📄 摘要(原文)

Symbolic logical reasoning is a critical yet underexplored capability of large language models (LLMs), providing reliable and verifiable decision-making in high-stakes domains such as mathematical reasoning and legal judgment. In this study, we present a systematic analysis of logical reasoning under controlled increases in logical complexity, and reveal a previously unrecognized phenomenon, which we term Logical Phase Transitions: rather than degrading smoothly, logical reasoning performance remains stable within a regime but collapses abruptly beyond a critical logical depth, mirroring physical phase transitions such as water freezing beyond a critical temperature threshold. Building on this insight, we propose Neuro-Symbolic Curriculum Tuning, a principled framework that adaptively aligns natural language with logical symbols to establish a shared representation, and reshapes training dynamics around phase-transition boundaries to progressively strengthen reasoning at increasing logical depths. Experiments on five benchmarks show that our approach effectively mitigates logical reasoning collapse at high complexity, yielding average accuracy gains of +1.26 in naive prompting and +3.95 in CoT, while improving generalization to unseen logical compositions. Code and data are available at https://github.com/AI4SS/Logical-Phase-Transitions.