Presupposition and Reasoning in Conditionals: A Theory-Based Study of Humans and LLMs

📄 arXiv: 2605.18352v1 📥 PDF

作者: Tara Azin, Yongan Yu, Raj Singh, Olessia Jouravlev

分类: cs.CL

发布日期: 2026-05-18

备注: To appear in the Proceedings of CoNLL 2026, colocated with ACL 2026


💡 一句话要点

研究条件句中预设与推理,对比人类与大语言模型在语用学上的差异

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 预设推导 条件句 大型语言模型 语用学 推理能力

📋 核心要点

  1. 现有方法缺乏对大型语言模型在条件句预设推导方面能力的充分评估。
  2. 论文通过对比人类和LLM在条件句上的判断,研究其语用推理能力。
  3. 实验表明,LLM在语用推理方面与人类存在差异,可能依赖表面模式匹配。

📝 摘要(中文)

条件句中的预设推导是意义和语用学理论的核心,但大型语言模型在这方面的能力尚未得到充分评估。本文通过一项平行行为研究填补了这一空白,该研究比较了人类判断和LLM对条件句规范数据集的预测,该数据集控制了前件和推导出的预设之间的关系。我们从120名参与者和四个LLM收集了在匹配的上下文条件下的可能性评级。结果表明,人类在判断中整合了概率和语用线索,而LLM与人类模式的对齐程度各不相同。我们使用LLM-as-a-Judge框架内一个基于语言学动机的检查表,进一步评估了模型的推理能力。我们观察到,最符合人类评级的模型通常缺乏连贯的语用推理,而具有更强推理能力的模型产生的判断却不太像人类。这些发现表明,LLM在此类任务上的表现可能源于表面模式匹配,而不是语用能力。我们的研究结果强调了基于语言学理论的基准对于比较人类和模型的重要性。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在处理条件句时,对于预设(presupposition)的理解和推理能力。现有方法缺乏对LLM在语用学层面的深入评估,尤其是在条件句这种复杂的语言结构中,LLM是否能够像人类一样进行预设推导存在疑问。

核心思路:论文的核心思路是通过对比人类和LLM在条件句上的判断,来评估LLM的语用推理能力。具体来说,论文设计了一个规范化的条件句数据集,控制了前件和预设之间的关系,然后让人类和LLM对这些句子进行可能性评级,最后对比两者的评级结果,并使用语言学驱动的检查表来评估LLM的推理过程。

技术框架:论文采用了一种平行行为研究框架,包括以下几个主要步骤:1) 构建规范化的条件句数据集,该数据集控制了前件和预设之间的关系;2) 招募人类参与者,并让他们对数据集中的句子进行可能性评级;3) 选择多个LLM,并让它们在相同的上下文条件下对数据集中的句子进行可能性评级;4) 对比人类和LLM的评级结果,分析LLM在语用推理方面的表现;5) 使用语言学驱动的检查表,评估LLM的推理过程,判断其是否具有连贯的语用推理能力。

关键创新:论文的关键创新在于:1) 首次系统性地研究了LLM在条件句预设推导方面的能力;2) 构建了一个规范化的条件句数据集,为后续研究提供了基准;3) 采用了一种平行行为研究框架,可以直接对比人类和LLM的语用推理能力;4) 使用语言学驱动的检查表,可以更深入地评估LLM的推理过程。

关键设计:论文的关键设计包括:1) 数据集的构建,需要保证数据集中的句子具有明确的预设,并且前件和预设之间的关系是可控的;2) 人类参与者的招募,需要保证参与者具有一定的语言学背景,并且能够理解条件句的含义;3) LLM的选择,需要选择具有代表性的LLM,并且能够进行可能性评级;4) 检查表的构建,需要基于语言学理论,并且能够覆盖LLM推理过程中的关键步骤。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,人类在判断条件句时会整合概率和语用线索,而LLM与人类模式的对齐程度各不相同。一些LLM虽然能够产生与人类相似的评级,但缺乏连贯的语用推理能力,表明其可能依赖表面模式匹配。而具有更强推理能力的LLM,其判断结果却不太像人类。这些发现揭示了LLM在语用理解方面存在的局限性。

🎯 应用场景

该研究成果可应用于提升语言模型的自然语言理解能力,尤其是在需要进行复杂推理和语用理解的场景中,例如对话系统、智能问答系统和文本摘要等。通过更好地理解预设和条件句,模型可以更准确地把握用户的意图,从而提供更自然、更有效的服务。此外,该研究也为评估和改进语言模型的语用能力提供了一种新的方法。

📄 摘要(原文)

Presupposition projection in conditionals is central to theories of meaning and pragmatics, yet it remains largely unevaluated in large language models. We address this gap through a parallel behavioral study comparing human judgments and LLM predictions on a normed dataset of conditional sentences that controls the relation between the antecedent and the projected presupposition. We collect likelihood ratings from 120 participants and four LLMs under matched contextual conditions. Results show that humans integrate probabilistic and pragmatic cues in their judgment, whereas LLMs show variable alignment with human patterns. Using a linguistically motivated checklist within an LLM-as-a-Judge framework, we further evaluate model reasoning. We observe models that best match human ratings often lack coherent pragmatic reasoning, while models with stronger reasoning produce less human-like judgments. These findings suggest that LLMs' performance on such tasks may result from surface pattern matching rather than pragmatic competence. Our findings highlight the importance of benchmarks grounded in linguistic theory for comparing humans and models.