Mary, the Cheeseburger-Eating Vegetarian: Do LLMs Recognize Incoherence in Narratives?

📄 arXiv: 2512.07777v1 📥 PDF

作者: Karin de Langis, Püren Öncel, Ryan Peters, Andrew Elfenbein, Laura Kristen Allen, Andreas Schramm, Dongyeop Kang

分类: cs.CL

发布日期: 2025-12-08


💡 一句话要点

研究表明大型语言模型在识别叙事不连贯性方面存在局限性,尤其是在人物性格违背方面。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 叙事理解 连贯性 常识推理 文本分析

📋 核心要点

  1. 现有大型语言模型在理解叙事连贯性方面存在不足,尤其是在识别人物性格违背情境时。
  2. 论文通过构建配对叙事数据集,对比LLM在连贯与不连贯故事上的表现,探究其理解能力。
  3. 实验表明,LLM内部表征能识别不连贯叙事,但外部表现不佳,且对世界知识依赖高于叙事理解。

📝 摘要(中文)

本文通过一个配对叙事数据集,研究了大型语言模型(LLMs)在区分连贯和不连贯故事方面的能力。探测性研究发现,LLMs的内部表征能够可靠地识别不连贯的叙事。然而,LLMs对评分问题的回答未能令人满意地区分连贯和不连贯的叙事,暗示了LLMs在理解故事叙述方面存在差距。测试的推理LLMs并没有消除这些缺陷,表明思维链可能无法完全解决模型内部状态和行为之间的差异。此外,LLMs似乎对违反设定的事件(例如,沙漠中的雨天)导致的不连贯性比对角色违反既定特征(例如,素食主义者Mary后来点了一份芝士汉堡)导致的不连贯性更敏感,这表明LLMs可能更依赖于典型的世界知识,而不是构建基于意义的叙事连贯性。结果中发现的一致不对称性表明,LLMs并没有完全掌握叙事连贯性。

🔬 方法详解

问题定义:论文旨在研究大型语言模型(LLMs)是否能够像人类一样理解叙事连贯性,并准确区分连贯和不连贯的故事。现有方法,即直接使用LLM生成文本或进行文本分类,无法充分揭示LLM内部对叙事连贯性的理解程度,并且在处理人物性格违背情境时表现不佳。

核心思路:论文的核心思路是通过构建包含连贯和不连贯故事对的数据集,并设计特定的prompt,来探测LLM的内部表征和外部行为是否一致。如果LLM内部能够识别不连贯性,但外部表现(如评分)未能反映出来,则表明LLM对叙事连贯性的理解存在差距。

技术框架:该研究主要包含以下几个阶段:1) 构建配对叙事数据集,包含连贯和不连贯的故事;2) 设计不同的prompt,引导LLM对故事进行评分;3) 分析LLM的内部表征,判断其是否能够识别不连贯的故事;4) 对比LLM的内部表征和外部行为,评估其对叙事连贯性的理解程度。研究还测试了使用思维链(chain-of-thought)的LLM,以观察其是否能改善对叙事连贯性的理解。

关键创新:该研究的关键创新在于使用配对叙事数据集和探测性方法,更深入地分析了LLM对叙事连贯性的理解能力。与以往的研究不同,该研究不仅关注LLM的外部表现,还关注其内部表征,从而更全面地评估LLM的理解能力。此外,该研究还发现LLM对不同类型的不连贯性(例如,违反设定和违反人物性格)的敏感度不同。

关键设计:数据集包含两种类型的不连贯性:一种是违反设定的事件(例如,沙漠中的雨天),另一种是违反人物性格的事件(例如,素食主义者吃芝士汉堡)。Prompt的设计包括不同的提问方式,例如直接评分、解释原因等。内部表征的分析方法未知(论文未详细说明)。实验中使用了多个LLM,包括推理LLM,并对比了它们在不同类型的不连贯性上的表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM的内部表征能够可靠地识别不连贯的叙事,但LLM对评分问题的回答未能令人满意地区分连贯和不连贯的叙事。LLMs对违反设定的事件导致的不连贯性比对角色违反既定特征导致的不连贯性更敏感。思维链方法未能显著改善LLM对叙事连贯性的理解。

🎯 应用场景

该研究结果有助于改进LLM的叙事理解能力,提高其在故事生成、对话系统和文本摘要等领域的应用效果。更深入的叙事理解能力可以使LLM生成更自然、更符合逻辑的故事,从而提升用户体验。此外,该研究也为评估和改进LLM的常识推理能力提供了新的思路。

📄 摘要(原文)

Leveraging a dataset of paired narratives, we investigate the extent to which large language models (LLMs) can reliably separate incoherent and coherent stories. A probing study finds that LLMs' internal representations can reliably identify incoherent narratives. However, LLMs generate responses to rating questions that fail to satisfactorily separate the coherent and incoherent narratives across several prompt variations, hinting at a gap in LLM's understanding of storytelling. The reasoning LLMs tested do not eliminate these deficits, indicating that thought strings may not be able to fully address the discrepancy between model internal state and behavior. Additionally, we find that LLMs appear to be more sensitive to incoherence resulting from an event that violates the setting (e.g., a rainy day in the desert) than to incoherence arising from a character violating an established trait (e.g., Mary, a vegetarian, later orders a cheeseburger), suggesting that LLMs may rely more on prototypical world knowledge than building meaning-based narrative coherence. The consistent asymmetry found in our results suggests that LLMs do not have a complete grasp on narrative coherence.