Reasoning Capabilities and Invariability of Large Language Models
作者: Alessandro Raganato, Rafael Peñaloza, Marco Viviani, Gabriella Pasi
分类: cs.CL
发布日期: 2025-05-01
备注: Accepted for publication in the Proceedings of the 23rd IEEE/WIC International Conference on Web Intelligence and Intelligent Agent Technology (WI-IAT 2024)
💡 一句话要点
提出几何图形推理基准,评估大型语言模型的逻辑推理能力和提示依赖性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 逻辑推理 提示工程 基准数据集 几何图形推理
📋 核心要点
- 现有大型语言模型在逻辑推理能力方面存在不足,尤其是在对提示的依赖性方面。
- 论文提出了一种新的基于几何图形的推理基准数据集,用于评估LLMs的逻辑推理能力。
- 实验结果表明,大型语言模型在零样本设置下表现较好,但思维链提示的效果取决于提示的位置。
📝 摘要(中文)
大型语言模型(LLMs)在处理自然语言方面表现出卓越的能力,但其处理简单推理任务的能力常受质疑。本文旨在全面分析LLMs的推理能力,特别关注其对提示的依赖性。为此,我们引入了一个新的基准数据集,其中包含一系列需要浅层逻辑推理的简单推理问题。这些问题符合认知心理学标准,限定在围绕几何图形的基本领域内,确保答案独立于任何关于世界的先有直觉,而仅依赖于演绎。对24个不同规模的LLMs进行零样本和少样本提示的实证分析表明,虽然参数超过700亿的LLMs在零样本设置中表现更好,但仍有很大的改进空间。对22个LLMs进行的思维链提示的额外测试表明,这种额外的提示可以帮助或损害模型的性能,具体取决于是否在答案之前或之后需要基本原理。
🔬 方法详解
问题定义:现有的大型语言模型在逻辑推理方面存在不足,尤其是在面对需要浅层逻辑推理的任务时,其性能往往受到提示方式的显著影响。现有的评估方法可能依赖于模型已有的世界知识,难以准确衡量其真正的推理能力。因此,需要一个更纯粹、更可控的评估基准,以深入了解LLMs的推理能力和对提示的依赖性。
核心思路:论文的核心思路是设计一个与世界知识无关、仅依赖于演绎推理的评估基准。通过限定问题领域为几何图形,并采用符合认知心理学标准的问题设计,可以避免模型利用先验知识作答,从而更准确地评估其逻辑推理能力。同时,通过系统地改变提示方式(零样本、少样本、思维链),可以研究LLMs对不同提示的敏感性。
技术框架:该研究主要包含以下几个阶段:1) 构建几何图形推理基准数据集,包含一系列需要浅层逻辑推理的问题;2) 选择多个不同规模的LLMs作为评估对象;3) 设计不同的提示策略,包括零样本、少样本和思维链提示;4) 对LLMs在不同提示策略下的性能进行评估和分析;5) 对实验结果进行统计分析,并得出关于LLMs推理能力和提示依赖性的结论。
关键创新:该论文的关键创新在于提出了一个专门用于评估LLMs逻辑推理能力的几何图形推理基准数据集。该数据集的设计避免了模型利用世界知识,从而更准确地评估了其推理能力。此外,该研究系统地研究了不同提示策略对LLMs推理性能的影响,为理解LLMs的提示依赖性提供了有价值的见解。
关键设计:数据集中的问题围绕几何图形展开,例如判断图形之间的包含关系、对称性等。问题设计参考了认知心理学标准,确保问题难度适中,且仅依赖于演绎推理。思维链提示的实验中,分别测试了在答案之前和之后提供推理过程的效果,以研究提示位置对模型性能的影响。实验中使用的LLMs包括不同规模的模型,以便分析模型规模对推理能力的影响。
📊 实验亮点
实验结果表明,参数超过700亿的LLMs在零样本设置中表现更好,但仍有很大的改进空间。思维链提示的效果取决于提示的位置,在答案之前提供推理过程可能会提高性能,而在答案之后提供则可能降低性能。不同规模的LLMs对提示的敏感性存在差异,表明模型规模是影响推理能力和提示依赖性的一个重要因素。
🎯 应用场景
该研究成果可应用于评估和改进大型语言模型的推理能力,尤其是在需要逻辑推理的场景中,例如智能问答、知识图谱推理、代码生成等。通过理解LLMs的推理能力和提示依赖性,可以更好地设计提示策略,提高LLMs在实际应用中的性能。此外,该基准数据集可以作为未来LLM研究的评估工具。
📄 摘要(原文)
Large Language Models (LLMs) have shown remarkable capabilities in manipulating natural language across multiple applications, but their ability to handle simple reasoning tasks is often questioned. In this work, we aim to provide a comprehensive analysis of LLMs' reasoning competence, specifically focusing on their prompt dependency. In particular, we introduce a new benchmark dataset with a series of simple reasoning questions demanding shallow logical reasoning. Aligned with cognitive psychology standards, the questions are confined to a basic domain revolving around geometric figures, ensuring that responses are independent of any pre-existing intuition about the world and rely solely on deduction. An empirical analysis involving zero-shot and few-shot prompting across 24 LLMs of different sizes reveals that, while LLMs with over 70 billion parameters perform better in the zero-shot setting, there is still a large room for improvement. An additional test with chain-of-thought prompting over 22 LLMs shows that this additional prompt can aid or damage the performance of models, depending on whether the rationale is required before or after the answer.