Tracing the ongoing emergence of human-like reasoning in Large Language Models

作者: Paolo Morosi, Nikoleta Pantelidou, Fritz Günther, Elena Pagliarini, Evelina Leivada

分类: cs.CL, cs.AI

发布日期: 2026-05-20

💡 一句话要点

评估大型语言模型在条件推理中类人推理能力的涌现

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 条件推理 语用推理 类人推理 人口匹配实验

📋 核心要点

现有大型语言模型在许多任务上表现出色，但缺乏对语用推理的深入理解，无法完全模拟人类的推理过程。
该研究通过人口匹配实验，对比LLMs和人类在条件推理任务中的表现，揭示LLMs在语用推理方面的不足。
实验结果表明，LLMs在语义操作上表现准确，但在捕捉人类推理中特有的语用丰富性方面存在明显差距。

📝 摘要（中文）

人类能够轻松理解字面意义之外的含义。大型语言模型（LLMs）在许多任务上表现出类似人类的性能，但它们是否像人类一样进行推理仍不清楚。为了解决这个问题，我们进行了一项人口匹配实验，评估了25个LLMs在四种语言中计算条件推理的方式，并与每种语言中相同数量的人类进行了比较。我们发现，人类通过语用推理来丰富逻辑推理。模型的行为更加多变。一些LLMs完美地遵循了条件语句的真值表，但忽略了语用推理，而另一些则偏离了真值表，坚持一种单一的解释，从而反映了准确的基于规则的处理，但不是类人推理。总的来说，LLMs是准确的语义运算符，但未能捕捉到人类推理特有的语用丰富性。至关重要的是，LLM的准确性既没有被开放与封闭状态、训练方向或架构类型所预测或提升，这表明语用推理仍然是人工系统认知工具包中一种新兴的能力。

🔬 方法详解

问题定义：论文旨在评估大型语言模型（LLMs）在条件推理任务中是否表现出类似人类的推理能力。现有方法主要关注LLMs在逻辑推理方面的表现，而忽略了人类推理中重要的语用推理成分，导致对LLMs推理能力的评估不够全面。

核心思路：论文的核心思路是通过设计一个人口匹配实验，直接比较LLMs和人类在处理条件语句时的推理方式。通过分析LLMs是否能够像人类一样进行语用推理，来判断LLMs是否真正具备类人推理能力。

技术框架：该研究的技术框架主要包括以下几个步骤：1. 选择25个具有代表性的LLMs作为研究对象。2. 设计包含条件语句的推理任务，涵盖四种语言。3. 招募与LLMs数量相等的人类参与者，进行相同的推理任务。4. 分析LLMs和人类在推理结果上的差异，重点关注语用推理的表现。5. 考察LLMs的架构类型、训练方式等因素是否影响其语用推理能力。

关键创新：该研究的关键创新在于：1. 首次采用人口匹配实验，直接对比LLMs和人类在条件推理任务中的表现。2. 重点关注LLMs在语用推理方面的能力，弥补了现有研究的不足。3. 揭示了LLMs在语用推理方面存在的明显差距，为未来LLMs的研究方向提供了新的思路。

关键设计：实验中，条件语句的设计需要考虑到不同语言的特点，确保任务的公平性和可比性。同时，需要设计合理的评估指标，量化LLMs和人类在语用推理方面的表现。此外，还需要对LLMs的架构类型、训练方式等因素进行控制，以排除这些因素对实验结果的干扰。

📊 实验亮点

实验结果表明，尽管LLMs在语义操作上表现准确，但在捕捉人类推理中特有的语用丰富性方面存在明显差距。LLM的准确性与开放/封闭状态、训练方向或架构类型无关，表明语用推理是LLM认知工具包中一种新兴的能力。该研究揭示了LLMs在类人推理方面仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于改进大型语言模型的推理能力，使其更接近人类的推理方式。这对于开发更智能、更人性化的AI系统具有重要意义，例如在智能客服、自然语言理解、人机交互等领域。

📄 摘要（原文）

Humans effortlessly go beyond literal meanings: If you mow the lawn, I will give you fifty dollars, is typically understood as implying that the speaker will pay only if the lawn is mowed, whereas If you are hungry, there is pizza in the oven implies that pizza is available regardless of the hearers hunger. Large Language Models - LLMs - show human-like performance on many tasks, yet it remains unclear whether they reason like humans. To address this, we conducted a population-matching experiment assessing how twentyfive LLMs compute conditional inferences across four languages, compared to an equal number of humans per language. We find that humans enrich logical reasoning through pragmatic inferences across languages. Model behavior is more variable. Some LLMs perfectly follow the truth-table of conditionals but they ignore pragmatic inferences, while others deviate from the truth-table, adhering to a single interpretation across the board, thus reflecting accurate rule-based processing but not human-like reasoning. Overall, LLMs are accurate semantic operators, but fail to capture the pragmatic enrichments characteristic of human reasoning. Crucially, LLM accuracy is neither predicted nor boosted by open vs. closed status, training orientation, or architecture type, suggesting that pragmatic reasoning is still an emerging ability in the cognitive toolkit of artificial systems.

Tracing the ongoing emergence of human-like reasoning in Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理