Says Who? Effective Zero-Shot Annotation of Focalization
作者: Rebecca M. M. Hicke, Yuri Bizzoni, Pascale Feldkamp, Ross Deans Kristensen-McLachlan
分类: cs.CL, cs.LG
发布日期: 2024-09-17 (更新: 2025-10-28)
备注: Accepted at CHR 2025
💡 一句话要点
利用大型语言模型实现叙事焦点零样本标注,性能媲美人工标注。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 叙事焦点 零样本学习 大型语言模型 计算文学 文本标注
📋 核心要点
- 叙事焦点标注任务复杂,人工标注一致性低,现有方法难以有效处理。
- 利用大型语言模型强大的零样本学习能力,直接进行叙事焦点标注。
- 实验表明,GPT-4o等模型性能可与人工标注媲美,F1值达到84.79%。
📝 摘要(中文)
叙事焦点描述了基于叙述者知识对叙事信息访问的限制或控制方式。它通过广泛的词汇-语法特征进行编码,并受读者解读的影响。即使是经过训练的标注者也经常在正确的标签上存在分歧,这表明这项任务在质量和计算上都具有挑战性。本文测试了五个当代大型语言模型(LLM)家族和两个基线在标注叙事焦点时表现如何。尽管任务具有挑战性,但我们发现LLM的表现与训练有素的人工标注者相当,其中GPT-4o的平均F1值为84.79%。此外,我们证明了GPT系列模型输出的对数概率经常反映出标注特定摘录的难度。最后,我们提供了一个案例研究,分析了斯蒂芬·金的十六部小说,证明了这种方法在计算文学研究中的实用性,以及从大规模检查焦点中获得的见解。
🔬 方法详解
问题定义:论文旨在解决叙事焦点自动标注的问题。叙事焦点指的是叙述者对叙事信息的控制和呈现方式,其标注高度依赖语境理解和推理,人工标注成本高且一致性难以保证。现有方法难以有效捕捉叙事焦点的细微特征,标注效果不佳。
核心思路:论文的核心思路是利用大型语言模型(LLM)强大的零样本学习能力,直接进行叙事焦点的标注。LLM在大量文本数据上预训练,具备丰富的语言知识和推理能力,无需额外训练即可理解和标注叙事焦点。
技术框架:该方法直接使用预训练的LLM,输入包含叙事焦点的文本片段,要求LLM输出相应的标签。具体流程包括:1)准备标注数据集;2)选择合适的LLM(如GPT系列);3)设计合适的prompt,引导LLM进行标注;4)评估LLM的标注结果。
关键创新:该方法的主要创新在于将LLM应用于叙事焦点标注任务,实现了零样本标注,无需人工标注数据进行训练。此外,论文还分析了LLM输出的对数概率与标注难度的关系,发现LLM能够反映标注的难易程度。
关键设计:论文使用了不同的prompt模板来引导LLM进行标注,并比较了不同LLM的性能。此外,论文还分析了GPT系列模型输出的对数概率,发现其与标注难度相关。具体而言,对数概率越低,表示模型对标注结果的置信度越低,标注难度越高。
🖼️ 关键图片
📊 实验亮点
实验结果表明,GPT-4o在叙事焦点标注任务上取得了显著的成果,平均F1值达到84.79%,与人工标注水平相当。此外,研究还发现GPT系列模型输出的对数概率能够反映标注的难度,为评估模型置信度和提高标注质量提供了新的思路。
🎯 应用场景
该研究成果可应用于计算文学研究,例如分析不同作者的叙事风格、识别文本中的情感倾向、自动生成故事梗概等。此外,该方法还可以扩展到其他需要细粒度文本理解和推理的任务中,例如情感分析、观点挖掘等,具有广泛的应用前景。
📄 摘要(原文)
Focalization describes the way in which access to narrative information is restricted or controlled based on the knowledge available to knowledge of the narrator. It is encoded via a wide range of lexico-grammatical features and is subject to reader interpretation. Even trained annotators frequently disagree on correct labels, suggesting this task is both qualitatively and computationally challenging. In this work, we test how well five contemporary large language model (LLM) families and two baselines perform when annotating short literary excerpts for focalization. Despite the challenging nature of the task, we find that LLMs show comparable performance to trained human annotators, with GPT-4o achieving an average F1 of 84.79%. Further, we demonstrate that the log probabilities output by GPT-family models frequently reflect the difficulty of annotating particular excerpts. Finally, we provide a case study analyzing sixteen Stephen King novels, demonstrating the usefulness of this approach for computational literary studies and the insights gleaned from examining focalization at scale.