Coreference as an indicator of context scope in multimodal narrative

作者: Nikolai Ilinykh, Shalom Lappin, Asad Sayeed, Sharid Loáiciga

分类: cs.CL

发布日期: 2025-03-07 (更新: 2025-06-20)

备注: 19 pages, 4 tables. Accepted to GEM2 Workshop: Generation, Evaluation & Metrics at ACL 2025

🔗 代码/项目: GITHUB

💡 一句话要点

揭示多模态叙事中大型语言模型与人类指代消解模式的差异

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 指代消解 多模态叙事 大型语言模型 上下文理解 视觉故事 量化分析 人机对比

📋 核心要点

大型多模态语言模型在视觉故事叙述中，指代消解的表现与人类存在差异，现有方法难以准确建模这种差异。
通过量化人类和机器文本中的指代模式，分析模型在跟踪混合引用方面的能力，揭示其在上下文理解上的局限性。
实验表明，尽管机器在生成质量上有所提升，但在处理复杂的指代关系时，仍与人类存在显著差距。

📝 摘要（中文）

本文旨在揭示大型多模态语言模型在视觉故事叙述任务中，指代表达式的分布与人类存在显著差异。我们引入了一系列指标，用于量化人类和机器撰写的文本中指代模式的特征。人类在文本和图像中保持一致性，以高度多样的方式交错引用不同的实体来分布指代表达式。尽管机器在生成质量上取得了明显的进步，但它们在跟踪混合引用方面的能力较弱。本研究的材料、指标和代码可在https://github.com/GU-CLASP/coreference-context-scope 获取。

🔬 方法详解

问题定义：论文旨在研究大型多模态语言模型在视觉故事叙述任务中，处理指代消解问题的能力。现有方法虽然在生成质量上有所提升，但未能有效跟踪混合引用，导致在上下文理解方面与人类存在显著差距。现有模型无法很好地捕捉人类在指代表达上所表现出的一致性和多样性。

核心思路：论文的核心思路是通过量化人类和机器文本中的指代模式，来分析模型在处理指代消解问题上的能力。通过设计一系列指标，比较人类和机器在指代表达上的差异，从而揭示模型在上下文理解上的局限性。这种量化分析的方法能够更客观地评估模型的性能。

技术框架：论文的技术框架主要包括以下几个步骤：1)构建视觉故事叙述数据集；2)让人类和机器分别撰写文本；3)设计一系列指标来量化文本中的指代模式，例如指代表达式的分布、实体引用的交错程度等；4)使用这些指标来比较人类和机器撰写的文本，从而分析模型在指代消解方面的表现。

关键创新：论文的关键创新在于提出了一系列量化指代模式的指标，这些指标能够更细粒度地分析模型在指代消解方面的表现。与传统的评估方法相比，这些指标能够更客观地反映模型在上下文理解上的局限性。此外，论文还通过比较人类和机器的指代模式，揭示了模型在处理复杂指代关系方面的不足。

关键设计：论文的关键设计在于指标的选择和定义。这些指标需要能够有效地捕捉人类在指代表达上的特点，例如一致性和多样性。同时，这些指标还需要能够区分人类和机器在指代表达上的差异。具体的指标包括指代表达式的频率、实体引用的距离、实体引用的交错程度等。论文还使用了统计分析方法来比较人类和机器在这些指标上的差异。

🖼️ 关键图片

📊 实验亮点

研究表明，大型多模态语言模型在视觉故事叙述任务中，指代表达式的分布与人类存在显著差异。尽管机器在生成质量上有所提升，但在跟踪混合引用方面的能力较弱。通过量化分析，揭示了模型在处理复杂指代关系方面的不足，为改进模型提供了方向。

🎯 应用场景

该研究成果可应用于提升多模态对话系统和视觉故事生成系统的性能。通过更好地理解和模拟人类的指代模式，可以使机器生成更自然、更连贯的文本，从而改善用户体验。此外，该研究还可以为评估和改进大型语言模型的上下文理解能力提供新的思路。

📄 摘要（原文）

We demonstrate that large multimodal language models differ substantially from humans in the distribution of coreferential expressions in a visual storytelling task. We introduce a number of metrics to quantify the characteristics of coreferential patterns in both human- and machine-written texts. Humans distribute coreferential expressions in a way that maintains consistency across texts and images, interleaving references to different entities in a highly varied way. Machines are less able to track mixed references, despite achieving perceived improvements in generation quality. Materials, metrics, and code for our study are available at https://github.com/GU-CLASP/coreference-context-scope.

Coreference as an indicator of context scope in multimodal narrative

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理