SemEval-2026 Task 4: Narrative Story Similarity and Narrative Representation Learning

📄 arXiv: 2604.21782v1 📥 PDF

作者: Hans Ole Hatzel, Ekaterina Artemova, Haimo Paul Stiemer, Evelyn Gius, Chris Biemann

分类: cs.CL

发布日期: 2026-04-23


💡 一句话要点

SemEval-2026任务4:提出一种新的叙事相似度定义,并构建数据集用于叙事表示学习。

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture)

关键词: 叙事相似性 叙事表示学习 自然语言处理 故事理解 数据集构建

📋 核心要点

  1. 现有叙事相似性方法缺乏理论支撑,与人类直觉存在偏差,难以准确衡量故事间的关联。
  2. 提出一种新的叙事相似性定义,兼顾叙事理论与直觉判断,并构建大规模标注数据集。
  3. 实验结果表明,LLM集成在三元组分类任务中表现优异,预训练嵌入模型通过处理可与微调模型媲美。

📝 摘要(中文)

本文介绍了关于叙事相似性和叙事表示学习的共享任务——NSNRL(发音为“nass-na-rel”)。该任务将叙事相似性定义为一个二元分类问题:确定两个故事中哪一个与锚定故事更相似。我们引入了一种新颖的叙事相似性定义,它与叙事理论和直觉判断相符。基于在此概念下收集的相似性判断,我们还评估了叙事嵌入表示。我们为超过1000个故事摘要三元组收集了至少两个注释,每个注释都得到至少两个意见一致的注释者的支持。本文描述了数据集的抽样和注释过程;此外,我们概述了提交的系统及其采用的技术。我们收到了来自两个赛道的46个团队的共71份最终提交。在基于三元组的分类设置中,LLM集成构成了许多得分最高的系统,而在嵌入设置中,对预训练嵌入模型进行预处理和后处理的系统与自定义微调的解决方案表现相当。我们的分析表明,两个赛道的自动化系统都有改进的潜力。任务网站包括嵌入的可视化以及所有团队的实例级分类结果。

🔬 方法详解

问题定义:论文旨在解决叙事相似性度量的问题,即如何准确判断两个故事与第三个故事的相似程度。现有的方法可能缺乏理论基础,或者与人类的直觉判断不一致,导致相似性判断不准确。

核心思路:论文的核心思路是提出一种新的叙事相似性定义,该定义既符合叙事理论,又能反映人类的直觉判断。通过收集大量人工标注数据,训练模型来学习这种新的相似性度量方式。

技术框架:整体框架包含数据集构建和模型评估两个主要部分。数据集构建包括故事摘要的选取、三元组的构建以及人工标注。模型评估则是在构建的数据集上,对不同的叙事表示学习方法进行评估,包括基于LLM的集成方法和基于预训练嵌入模型的方法。

关键创新:论文的关键创新在于提出了新的叙事相似性定义,并基于此构建了一个大规模的标注数据集。这个数据集可以用于训练和评估各种叙事表示学习模型,从而提高叙事相似性度量的准确性。

关键设计:数据集构建的关键设计在于三元组的构建方式和标注流程。每个三元组包含一个锚定故事和两个候选故事,标注者需要判断哪个候选故事与锚定故事更相似。为了保证标注质量,每个三元组都由至少两个标注者进行标注,并要求标注者之间达成一致。

📊 实验亮点

实验结果表明,在三元组分类任务中,LLM集成方法取得了最佳性能,表明大型语言模型在理解和比较故事方面具有优势。此外,通过对预训练嵌入模型进行预处理和后处理,可以使其性能与自定义微调的模型相媲美,这为利用现有资源进行叙事表示学习提供了新的思路。

🎯 应用场景

该研究成果可应用于故事推荐系统,帮助用户发现感兴趣的故事;也可用于文学作品分析,例如自动识别相似主题或情节的故事;还可用于电影剧本创作,辅助编剧寻找灵感或评估剧本的相似度。

📄 摘要(原文)

We present the shared task on narrative similarity and narrative representation learning - NSNRL (pronounced "nass-na-rel"). The task operationalizes narrative similarity as a binary classification problem: determining which of two stories is more similar to an anchor story. We introduce a novel definition of narrative similarity, compatible with both narrative theory and intuitive judgment. Based on the similarity judgments collected under this concept, we also evaluate narrative embedding representations. We collected at least two annotations each for more than 1,000 story summary triples, with each annotation being backed by at least two annotators in agreement. This paper describes the sampling and annotation process for the dataset; further, we give an overview of the submitted systems and the techniques they employ. We received a total of 71 final submissions from 46 teams across our two tracks. In our triple-based classification setup, LLM ensembles make up many of the top-scoring systems, while in the embedding setup, systems with pre- and post-processing on pretrained embedding models perform about on par with custom fine-tuned solutions. Our analysis identifies potential headroom for improvement of automated systems in both tracks. The task website includes visualizations of embeddings alongside instance-level classification results for all teams.