Humans vs Vision-Language Models: A Unified Measure of Narrative Coherence

作者: Nikolai Ilinykh, Hyewon Jang, Shalom Lappin, Asad Sayeed, Sharid Loáiciga

分类: cs.CL

发布日期: 2026-03-26

备注: 9 pages of content, 1 page of appendices, 9 tables, 3 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出统一的叙事连贯性度量方法，对比人类与视觉-语言模型在视觉故事生成中的表现。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 叙事连贯性 视觉-语言模型 故事生成 多模态学习 文本评估

📋 核心要点

现有视觉-语言模型在生成故事时，缺乏对叙事连贯性的深入评估和理解。
论文提出一套综合指标，从共指、话语关系、主题和角色一致性等多维度量化叙事连贯性。
实验表明，视觉-语言模型在叙事连贯性方面与人类存在显著差异，尤其是在组织话语方面。

📝 摘要（中文）

本文通过比较人类撰写的叙事与视觉-语言模型(VLMs)在Visual Writing Prompts语料库上生成的叙事，研究了视觉故事中叙事连贯性。使用一系列捕捉叙事连贯性不同方面的指标，包括共指、话语关系类型、主题连续性、角色持久性和多模态角色基础，计算叙事连贯性得分。研究发现，VLMs表现出大致相似的连贯性特征，但与人类存在系统性差异。此外，单个指标的差异通常很微妙，但当联合考虑时会变得更加清晰。总的来说，结果表明，尽管VLMs具有类似人类的表面流畅性，但在组织跨视觉故事的话语方面，模型叙事与人类叙事存在系统性差异。代码已开源。

🔬 方法详解

问题定义：论文旨在解决视觉-语言模型（VLMs）生成的故事在叙事连贯性方面与人类存在差距的问题。现有方法难以全面评估故事的连贯性，缺乏对共指、话语关系、主题一致性等多方面的综合考量，导致模型生成的故事在逻辑性和流畅性上表现不佳。

核心思路：论文的核心思路是通过设计一套综合的叙事连贯性度量指标，从多个维度量化评估故事的连贯性。通过对比人类和VLMs生成的故事在这些指标上的表现，揭示VLMs在叙事组织方面的不足，从而为改进模型提供指导。

技术框架：论文的技术框架主要包括以下几个模块：1) 数据集：使用Visual Writing Prompts语料库，包含视觉提示和对应的故事。2) 叙事连贯性指标：定义了一系列指标，包括共指（衡量代词和名词的指代关系）、话语关系类型（衡量句子之间的逻辑关系）、主题连续性（衡量故事主题的连贯性）、角色持久性（衡量角色在故事中的一致性）和多模态角色基础（衡量角色与视觉提示的一致性）。3) 评估方法：计算人类和VLMs生成的故事在这些指标上的得分，并进行对比分析。

关键创新：论文的关键创新在于提出了一个统一的、多维度的叙事连贯性度量框架。该框架不仅考虑了传统的文本连贯性指标，还加入了多模态角色基础，从而更全面地评估了视觉故事的连贯性。此外，通过对比人类和VLMs的表现，揭示了VLMs在叙事组织方面的不足。

关键设计：论文在指标设计上考虑了多个方面。例如，在共指方面，使用了自动共指解析工具来识别代词和名词的指代关系。在话语关系类型方面，使用了Rhetorical Structure Theory (RST) 来分析句子之间的逻辑关系。在多模态角色基础方面，使用了视觉特征提取器来提取图像特征，并与文本特征进行匹配。

🖼️ 关键图片

📊 实验亮点

实验结果表明，VLMs在叙事连贯性方面与人类存在显著差异。具体来说，VLMs在共指、话语关系和主题连续性等指标上的得分低于人类。此外，研究发现，即使VLMs在单个指标上的表现与人类相似，但在整体叙事组织方面仍然存在差距。这些结果表明，VLMs在理解和生成复杂叙事方面仍有很大的提升空间。

🎯 应用场景

该研究成果可应用于提升视觉故事生成模型的性能，使其生成的故事更具逻辑性和连贯性。此外，该方法也可用于评估其他文本生成模型的质量，例如机器翻译和文本摘要。未来，该研究可以扩展到更复杂的叙事场景，例如电影剧本生成和游戏剧情设计。

📄 摘要（原文）

We study narrative coherence in visually grounded stories by comparing human-written narratives with those generated by vision-language models (VLMs) on the Visual Writing Prompts corpus. Using a set of metrics that capture different aspects of narrative coherence, including coreference, discourse relation types, topic continuity, character persistence, and multimodal character grounding, we compute a narrative coherence score. We find that VLMs show broadly similar coherence profiles that differ systematically from those of humans. In addition, differences for individual measures are often subtle, but they become clearer when considered jointly. Overall, our results indicate that, despite human-like surface fluency, model narratives exhibit systematic differences from those of humans in how they organise discourse across a visually grounded story. Our code is available at https://github.com/GU-CLASP/coherence-driven-humans.

Humans vs Vision-Language Models: A Unified Measure of Narrative Coherence

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理