Plausibility as Commonsense Reasoning: Humans Succeed, Large Language Models Do not

📄 arXiv: 2604.04825 📥 PDF

作者: Sercan Karakaş

分类: cs.CL, cs.AI

发布日期: 2026-04-07


💡 一句话要点

研究表明大型语言模型在土耳其语歧义消解中,常识推理能力弱于人类。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 常识推理 歧义消解 大型语言模型 土耳其语 句法分析

📋 核心要点

  1. 大型语言模型在语言任务中表现出色,但其是否具备人类般的常识推理能力仍待考量。
  2. 该研究通过构建土耳其语歧义语句,利用事件合理性差异诱导人类和LLM产生不同的解析偏好。
  3. 实验表明,人类能有效利用合理性信息进行歧义消解,而LLM的性能不稳定甚至出现反转。

📝 摘要(中文)

大型语言模型在许多语言任务上表现出色,但它们是否像人类一样,在歧义消解过程中以一种结构敏感的方式整合世界知识和句法结构,仍然不清楚。我们以土耳其语前置关系从句附加歧义为例,其中相同的表面字符串允许高位附加(HA)或低位附加(LA)来测试这个问题。我们构建了歧义项,保持句法结构不变,并确保两种解析在语用上都是可能的,同时分级的事件合理性选择性地偏向高位附加与低位附加。这些对比通过独立的规范评级得到验证。在一个快速强制选择的理解实验中,人类表现出显著的、正确导向的合理性效应。然后,我们评估了土耳其语和多语种LLM在一个平行的基于偏好的设置中,该设置通过平均每token对数概率比较匹配的HA/LA延续。在所有模型中,合理性驱动的转变是微弱的、不稳定的或相反的。结果表明,在测试的模型中,合理性信息不像在人类判断中那样可靠地指导附加偏好,并且它们突出了土耳其语RC附加作为一种有用的跨语言诊断,超越了广泛的基准。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLM)在处理歧义语句时,是否能像人类一样利用常识知识进行推理和消歧。现有方法缺乏对LLM在结构敏感的歧义消解中,整合世界知识能力的深入评估,尤其是在资源较少的语言(如土耳其语)中。

核心思路:论文的核心思路是设计一种受控的实验环境,通过构建土耳其语前置关系从句附加歧义语句,并操纵事件的合理性,使得高位附加(HA)和低位附加(LA)在语用上均可行,但合理性偏向不同。通过比较人类和LLM在这些歧义语句上的解析偏好,来评估LLM是否能像人类一样利用常识知识进行推理。

技术框架:该研究的技术框架包括以下几个步骤:1. 构建土耳其语歧义语句,控制句法结构,并确保HA和LA在语用上均可行。2. 通过独立的规范评级验证事件合理性的对比。3. 进行人类受试者的快速强制选择理解实验,测量人类的解析偏好。4. 使用土耳其语和多语种LLM,在一个平行的基于偏好的设置中,通过平均每token对数概率比较匹配的HA/LA延续,评估LLM的解析偏好。

关键创新:该研究的关键创新在于:1. 利用土耳其语这种资源较少的语言,提供了一个新的跨语言视角来评估LLM的常识推理能力。2. 通过精巧的实验设计,将句法结构和语用合理性解耦,从而更精确地评估LLM对常识知识的利用。3. 采用基于偏好的评估方法,通过比较HA/LA延续的概率,更直接地反映LLM的解析偏好。

关键设计:在实验设计方面,关键在于构建歧义语句时,需要保证HA和LA在句法上都是合法的,并且在没有事件合理性信息的情况下,两种解析都是可能的。事件合理性的操纵是通过改变语句中的动词或名词,使得某些事件在常识上更倾向于高位附加或低位附加。在LLM评估方面,关键在于使用平均每token对数概率来衡量LLM对不同解析的偏好,并确保HA/LA延续在其他方面保持一致。

📊 实验亮点

实验结果表明,人类在歧义消解中表现出显著且正确的合理性效应,而LLM的合理性驱动转变则表现出微弱、不稳定甚至反转的现象。这表明,在测试的模型中,合理性信息并不能像在人类判断中那样可靠地指导附加偏好。该研究突出了土耳其语关系从句附加作为一种有用的跨语言诊断工具,超越了广泛的基准测试。

🎯 应用场景

该研究成果可应用于提升自然语言处理系统的常识推理能力,尤其是在处理歧义语句和进行语义理解方面。通过改进模型架构和训练方法,可以使机器更好地理解人类语言,从而提高机器翻译、文本摘要、问答系统等应用的性能。此外,该研究也为评估和诊断大型语言模型的推理能力提供了一种新的方法。

📄 摘要(原文)

Large language models achieve strong performance on many language tasks, yet it remains unclear whether they integrate world knowledge with syntactic structure in a human-like, structure-sensitive way during ambiguity resolution. We test this question in Turkish prenominal relative-clause attachment ambiguities, where the same surface string permits high attachment (HA) or low attachment (LA). We construct ambiguous items that keep the syntactic configuration fixed and ensure both parses remain pragmatically possible, while graded event plausibility selectively favors High Attachment vs.\ Low Attachment. The contrasts are validated with independent norming ratings. In a speeded forced-choice comprehension experiment, humans show a large, correctly directed plausibility effect. We then evaluate Turkish and multilingual LLMs in a parallel preference-based setup that compares matched HA/LA continuations via mean per-token log-probability. Across models, plausibility-driven shifts are weak, unstable, or reversed. The results suggest that, in the tested models, plausibility information does not guide attachment preferences as reliably as it does in human judgments, and they highlight Turkish RC attachment as a useful cross-linguistic diagnostic beyond broad benchmarks.