Large Language and Reasoning Models are Shallow Disjunctive Reasoners
作者: Irtaza Khalid, Amir Masoud Nourollah, Steven Schockaert
分类: cs.AI, cs.CL, cs.LG
发布日期: 2025-03-30 (更新: 2025-06-02)
备注: ACL 2025 main conference
💡 一句话要点
大型语言和推理模型本质上是浅层的析取推理器,难以进行复杂关系推理
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 推理模型 关系推理 分布外泛化 定性推理
📋 核心要点
- 大型语言模型在复杂推理任务中依赖捷径,导致在分布外数据上泛化能力差。
- 论文通过定性空间和时间推理任务,研究大型推理模型在系统关系组合方面的能力。
- 实验表明,大型推理模型在单路径推理上优于大型语言模型,但在多路径推理上表现不佳,本质上是浅层析取推理器。
📝 摘要(中文)
大型语言模型(LLMs)在系统推理方面表现不佳。即使在看似表现良好的任务中,它们的性能也往往依赖于捷径,而非真正的推理能力,导致在分布外(OOD)示例上崩溃。基于强化学习和思维链提示的后训练策略最近被誉为一项变革。然而,关于由此产生的“大型推理模型”(LRMs)的潜力,除了数学和基于编程的问题解决之外,知之甚少,在这些领域中,真正的OOD问题可能很少。本文侧重于需要系统关系组合的任务,用于定性空间和时间推理。该设置允许对问题难度进行精细控制,以精确测量OOD泛化。我们发现,零样本LRM通常在单路径推理任务中优于其LLM对应模型,但在多路径设置中表现不佳。虽然微调的LLM显示出相对较好的结果,但它们也无法进行多路径泛化。我们还为此提供了行为解释的证据,即LRM是浅层的析取推理器。
🔬 方法详解
问题定义:论文旨在研究大型语言模型(LLMs)及其通过后训练得到的“大型推理模型”(LRMs)在需要系统关系组合的复杂推理任务中的表现。现有方法,即使经过强化学习和思维链提示等改进,仍然依赖于捷径,导致在分布外(OOD)数据上泛化能力不足。特别是在数学和编程之外的领域,对LRM的真正推理能力缺乏深入了解。
核心思路:论文的核心思路是通过设计定性的空间和时间推理任务,这些任务需要系统地组合关系,从而精确控制问题的难度,并衡量模型在OOD数据上的泛化能力。通过分析模型在单路径和多路径推理任务中的表现差异,揭示LRM的推理机制。
技术框架:论文采用零样本学习和微调两种方式评估LLM和LRM。任务涉及定性的空间和时间推理,需要模型根据给定的关系推断出新的关系。通过比较模型在不同难度级别和不同路径数量的推理任务上的表现,分析其推理能力。
关键创新:论文的关键创新在于揭示了LRM本质上是“浅层析取推理器”。这意味着LRM在推理时倾向于简单地组合已知的关系,而缺乏进行复杂、多步骤推理的能力。这种浅层推理导致其在多路径推理任务中表现不佳。
关键设计:论文设计了可控难度的空间和时间推理任务,通过调整关系的数量和推理路径的长度,来评估模型的推理能力。具体的技术细节包括:定义了不同的关系类型(例如,空间关系:在...之上,在...之下;时间关系:在...之前,在...之后),并设计了相应的推理规则。通过比较模型在不同设置下的准确率,来评估其泛化能力。
🖼️ 关键图片
📊 实验亮点
实验结果表明,零样本LRM在单路径推理任务中优于LLM,但在多路径推理任务中表现不佳。微调的LLM虽然有所提升,但仍然无法有效泛化到多路径推理。这些结果支持了LRM是浅层析取推理器的结论,揭示了现有模型在复杂推理方面的局限性。
🎯 应用场景
该研究成果有助于理解大型语言模型和推理模型的局限性,并指导未来模型的设计和训练。潜在应用包括:开发更可靠的智能体,用于处理需要复杂推理的任务,例如知识图谱推理、智能规划和决策支持系统。此外,该研究也为评估和改进模型的推理能力提供了新的方法。
📄 摘要(原文)
Large Language Models (LLMs) have been found to struggle with systematic reasoning. Even on tasks where they appear to perform well, their performance often depends on shortcuts, rather than on genuine reasoning abilities, leading them to collapse on out-of-distribution (OOD) examples. Post-training strategies based on reinforcement learning and chain-of-thought prompting have recently been hailed as a step change. However, little is known about the potential of the resulting ``Large Reasoning Models'' (LRMs) beyond maths and programming-based problem solving, where genuine OOD problems can be sparse. In this paper, we focus on tasks that require systematic relational composition for qualitative spatial and temporal reasoning. The setting allows fine control over problem difficulty to precisely measure OOD generalization. We find that, zero-shot LRMs generally outperform their LLM counterparts in single-path reasoning tasks but struggle in the multi-path setting. Whilst showing comparatively better results, fine-tuned LLMs are also not capable of multi-path generalization. We also provide evidence for the behavioral interpretation for this, i.e., that LRMs are shallow disjunctive reasoners.