LLMs as Span Annotators: A Comparative Study of LLMs and Humans
作者: Zdeněk Kasner, Vilém Zouhar, Patrícia Schmidtová, Ivan Kartáč, Kristýna Onderková, Ondřej Plátek, Dimitra Gkatzia, Saad Mahamood, Ondřej Dušek, Simone Balloccu
分类: cs.CL
发布日期: 2025-04-11 (更新: 2025-12-13)
💡 一句话要点
研究LLM作为文本片段标注器的能力,对比其与人类标注者的表现
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 片段标注 人机对比 标注者间一致性 文本评估
📋 核心要点
- 现有文本评估方法(如单项指标)无法提供细粒度的反馈,片段标注可以解决此问题。
- 该研究探索使用LLM作为片段标注器的可行性,旨在降低标注成本并提高效率。
- 实验对比了LLM与人类标注员在三个任务上的表现,发现LLM错误率与人类相似,但成本更低。
📝 摘要(中文)
文本片段标注(在片段级别标注特定的文本特征)可用于评估单项指标无法提供有效反馈的文本。直到最近,片段标注都是由人工标注员或微调模型完成的。本文研究了大型语言模型(LLM)是否可以作为人工标注员的替代方案。我们将LLM在三个片段标注任务中的能力与熟练的人工标注员进行比较:评估数据到文本的生成、识别翻译错误以及检测宣传技巧。结果表明,总体而言,LLM与人工标注员之间只有中等程度的标注者间一致性(IAA)。但是,我们证明LLM的错误率与熟练的众包工作者相似。LLM还以每次输出标注的一小部分成本生成标注。我们发布了超过4万个模型和人工片段标注的数据集,以供进一步研究。
🔬 方法详解
问题定义:论文旨在解决文本片段标注任务中,人工标注成本高昂且效率较低的问题。现有方法依赖于人工标注或特定任务的微调模型,前者成本高,后者泛化能力差。因此,需要探索一种更高效、更通用的片段标注方法。
核心思路:论文的核心思路是利用大型语言模型(LLM)的强大文本理解和生成能力,将其作为片段标注器。通过适当的提示工程(Prompt Engineering),引导LLM识别并标注文本中的特定特征,从而替代或辅助人工标注。
技术框架:该研究没有提出特定的技术框架,而是采用了一种比较研究的方法。主要流程包括:1) 选择三个不同的片段标注任务(数据到文本生成评估、翻译错误识别、宣传技巧检测);2) 设计合适的提示模板,用于引导LLM进行标注;3) 收集LLM和人类标注员的标注结果;4) 计算标注者间一致性(IAA)和错误率,并进行对比分析;5) 评估标注成本。
关键创新:该研究的关键创新在于探索了LLM在片段标注任务中的潜力,并将其与人类标注员进行了直接比较。以往的研究主要集中在人工标注或微调模型上,而该研究首次系统地评估了LLM作为通用片段标注器的可行性。
关键设计:研究的关键设计在于提示模板的设计,不同的提示模板会显著影响LLM的标注效果。此外,研究还关注了标注者间一致性(IAA)的计算方法,以及错误率的评估标准。没有涉及特定的网络结构或损失函数。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在片段标注任务中与人类标注员具有中等程度的一致性,但错误率与熟练的众包工作者相似。更重要的是,LLM的标注成本远低于人工标注。该研究还发布了一个包含超过4万个模型和人工片段标注的数据集,为后续研究提供了宝贵资源。
🎯 应用场景
该研究成果可应用于多种场景,例如:自动评估文本质量、检测机器翻译错误、识别网络舆情和虚假信息、辅助内容审核等。通过利用LLM进行片段标注,可以降低标注成本,提高标注效率,并为后续的文本分析和处理提供更细粒度的信息。
📄 摘要(原文)
Span annotation - annotating specific text features at the span level - can be used to evaluate texts where single-score metrics fail to provide actionable feedback. Until recently, span annotation was done by human annotators or fine-tuned models. In this paper, we study whether large language models (LLMs) can serve as an alternative to human annotators. We compare the abilities of LLMs to skilled human annotators on three span annotation tasks: evaluating data-to-text generation, identifying translation errors, and detecting propaganda techniques. We show that overall, LLMs have only moderate inter-annotator agreement (IAA) with human annotators. However, we demonstrate that LLMs make errors at a similar rate as skilled crowdworkers. LLMs also produce annotations at a fraction of the cost per output annotation. We release the dataset of over 40k model and human span annotations for further research.