How LLMs Comprehend Temporal Meaning in Narratives: A Case Study in Cognitive Evaluation of LLMs

📄 arXiv: 2507.14307v1 📥 PDF

作者: Karin de Langis, Jong Inn Park, Andreas Schramm, Bin Hu, Khanh Chi Le, Michael Mensink, Ahn Thu Tong, Dongyeop Kang

分类: cs.CL

发布日期: 2025-07-18

DOI: 10.18653/v1/2025.acl-long.1415


💡 一句话要点

通过认知评估研究LLM如何理解叙事中的时间意义

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 叙事理解 时间语义 认知评估 语言体 因果推理 专家在环

📋 核心要点

  1. 现有研究未能充分揭示LLM的语言能力与人类认知之间的差异,尤其是在叙事理解方面。
  2. 该研究采用专家在环的探测方法,针对性地评估LLM在处理叙事时间意义时的语义表示和语用推理能力。
  3. 实验结果表明,LLM在体貌判断、因果推理等方面与人类存在显著差异,表明其叙事理解能力不足。

📝 摘要(中文)

大型语言模型(LLM)展现出日益复杂的语言能力,但这些行为在多大程度上反映了类似人类的认知,而非高级模式识别,仍然是一个悬而未决的问题。本研究调查了LLM如何处理叙事中语言体的时间意义,这些叙事之前已用于人类研究。通过使用专家在环的探测流程,我们进行了一系列有针对性的实验,以评估LLM是否以类似人类的方式构建语义表示和进行语用推理。我们的研究结果表明,LLM过度依赖原型,产生不一致的体貌判断,并且难以进行源于体貌的因果推理,这引发了对其完全理解叙事能力的担忧。这些结果表明,LLM处理体貌的方式与人类根本不同,并且缺乏强大的叙事理解能力。除了这些经验性发现之外,我们还开发了一个标准化的实验框架,用于可靠地评估LLM的认知和语言能力。

🔬 方法详解

问题定义:论文旨在研究LLM是否能够像人类一样理解叙事中的时间意义,特别是语言体(aspect)所蕴含的语义和语用信息。现有方法难以区分LLM是真正理解了语言,还是仅仅依赖于高级的模式识别。现有研究缺乏一个标准化的评估框架来可靠地评估LLM的认知和语言能力。

核心思路:论文的核心思路是通过设计一系列针对性的实验,模拟人类在理解叙事时所进行的认知过程,然后将LLM的反应与人类的反应进行对比,从而判断LLM是否以类似人类的方式处理语言体。这种“专家在环”的探测方法旨在深入挖掘LLM的内部机制,而不仅仅是观察其外部表现。

技术框架:该研究采用了一个“专家在环”的探测流程,主要包含以下几个阶段:1) 设计包含特定语言体的叙事文本;2) 由语言学专家对这些文本进行标注,确定其正确的时间意义解释;3) 将这些文本输入到LLM中,并观察LLM的输出;4) 将LLM的输出与专家的标注进行对比,评估LLM的理解能力;5) 根据评估结果,调整实验设计,进行迭代优化。

关键创新:该研究的关键创新在于其评估方法,即“专家在环”的探测流程。这种方法不同于传统的黑盒测试,它试图深入了解LLM的内部工作机制,并将其与人类的认知过程进行对比。此外,该研究还提出了一个标准化的实验框架,可以用于可靠地评估LLM的认知和语言能力。

关键设计:论文使用了之前在人类研究中使用过的叙事文本,以确保实验结果具有可比性。实验中,研究人员关注LLM在以下几个方面的表现:1) 对原型事件的依赖程度;2) 体貌判断的一致性;3) 基于体貌的因果推理能力。具体的技术细节,例如LLM的参数设置、损失函数等,论文中没有详细描述,属于未知信息。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在处理叙事中的时间意义时,过度依赖原型,产生不一致的体貌判断,并且难以进行源于体貌的因果推理。这些结果表明,LLM处理体貌的方式与人类根本不同,并且缺乏强大的叙事理解能力。具体的性能数据和提升幅度在论文中没有明确给出。

🎯 应用场景

该研究成果可应用于评估和改进LLM的叙事理解能力,提高LLM在对话系统、故事生成、文本摘要等领域的性能。此外,该研究提出的评估框架可推广到其他认知能力的评估,促进LLM的认知对齐研究。

📄 摘要(原文)

Large language models (LLMs) exhibit increasingly sophisticated linguistic capabilities, yet the extent to which these behaviors reflect human-like cognition versus advanced pattern recognition remains an open question. In this study, we investigate how LLMs process the temporal meaning of linguistic aspect in narratives that were previously used in human studies. Using an Expert-in-the-Loop probing pipeline, we conduct a series of targeted experiments to assess whether LLMs construct semantic representations and pragmatic inferences in a human-like manner. Our findings show that LLMs over-rely on prototypicality, produce inconsistent aspectual judgments, and struggle with causal reasoning derived from aspect, raising concerns about their ability to fully comprehend narratives. These results suggest that LLMs process aspect fundamentally differently from humans and lack robust narrative understanding. Beyond these empirical findings, we develop a standardized experimental framework for the reliable assessment of LLMs' cognitive and linguistic capabilities.