Temporal Simultaneity Predicts Annotation Quality in Sentiment Corpora

📄 arXiv: 2605.27239v1 📥 PDF

作者: Idris Abdulmumin, Mokgadi Penelope Matloga, Tadesse Destaw Belay, Botshelo Kondowe, Letlhogonolo Mohleleng, Hareaipha Nkopo Letsoalo, Shamsuddeen Hassan Muhammad, Vukosi Marivate

分类: cs.CL

发布日期: 2026-05-26


💡 一句话要点

分析时间同步性对情感语料标注质量的影响,并构建Setswana语料库。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 情感分析 语料标注 时间同步性 标注质量 Setswana语 非洲语言NLP 人机协作

📋 核心要点

  1. 现有情感标注任务中,长时间跨度和少量标注员导致标注质量难以保证,需要深入分析影响因素。
  2. 本文核心在于分析时间同步性对标注质量的影响,并发现时间同步性是标注员间一致性的关键预测指标。
  3. 实验表明,时间同步性高的标注数据一致性显著提升,同时开源了Setswana情感数据集及相关代码。

📝 摘要(中文)

在标注活动跨越数周或数月且标注员数量较少的情况下,标注质量难以维持。本文提出了一个包含3565条Setswana语料的情感数据集,这些语料由三位母语标注员分八批次标注。研究分析了标注员间一致性(IAA)随时间推移而下降的原因。尽管总体Randolph自由边缘Kappa系数为κ=0.76,属于“优秀”级别,但每批次的κ值在标注任务中下降超过32个点。通过六项有针对性的分析,发现(i)标签混淆集中在负面/中性边界,(ii)两位标注员表现出与自动驾驶标注一致的游程漂移,以及(iii)κ的主要预测指标是时间同步性:在一分钟内标注的推文达到κ=0.98,而间隔超过一天的推文仅达到κ=0.65。标注速度和推文级别的语言特征与κ没有显著关联。本文在三类情感分类任务上对三个开放多语言编码器和专有模型(GPT-5和Gemini)进行了基准测试;微调使宏F1得分比预训练基线提高了29到43个点,其中GPT-5的少量样本学习效果最佳(62.2宏F1)。本文发布了数据集、每个标注的时间戳和分析代码,以支持未来非洲语言NLP资源的可重复质量审计。

🔬 方法详解

问题定义:本文旨在解决情感语料标注过程中,标注质量随时间推移下降的问题。现有方法缺乏对标注过程时间因素的考虑,导致无法有效识别和控制标注质量下降的风险。特别是在标注周期长、标注人员少的情况下,标注质量的维持面临挑战。

核心思路:本文的核心思路是探究标注过程中的时间因素(特别是时间同步性)与标注质量之间的关系。通过分析标注时间戳和标注员间一致性,揭示时间同步性对标注质量的影响,并以此为基础提出提高标注质量的策略。

技术框架:本文的研究框架主要包括以下几个阶段:1) 构建Setswana情感数据集,包含3565条推文,由三位母语标注员标注;2) 分析标注员间一致性(IAA)随时间的变化趋势;3) 通过六项有针对性的分析,探究标签混淆、标注员漂移等因素;4) 重点分析时间同步性与标注质量的关系,量化时间间隔对标注员间一致性的影响;5) 在情感分类任务上对多种模型进行基准测试,评估数据集的质量和可用性。

关键创新:本文最重要的技术创新点在于发现了时间同步性是情感语料标注质量的关键预测指标。以往研究较少关注标注过程中的时间因素,而本文通过实证分析证明,标注时间间隔与标注员间一致性存在显著负相关关系。这一发现为提高标注质量提供了新的视角和方法。

关键设计:本文的关键设计包括:1) 细粒度的时间戳记录,为分析时间同步性提供了数据基础;2) 多种统计分析方法,包括Randolph's free-marginal Kappa系数、游程分析等,用于量化标注员间一致性和标注员漂移;3) 对比实验,使用多种情感分类模型评估数据集的质量,并验证微调的有效性。

📊 实验亮点

研究发现,标注时间间隔是影响标注质量的关键因素。在一分钟内标注的推文,标注员间一致性Kappa系数高达0.98,而间隔超过一天的推文,Kappa系数仅为0.65。此外,通过微调,GPT-5在Setswana情感分类任务上取得了62.2的宏F1值,表现最佳。

🎯 应用场景

该研究成果可应用于情感分析、舆情监控、自然语言处理等领域。通过关注标注过程中的时间同步性,可以有效提高标注质量,从而提升下游任务的性能。此外,该研究提出的质量审计方法和开源数据集,为非洲语言NLP资源建设提供了有益参考。

📄 摘要(原文)

Annotation quality is difficult to sustain when campaigns span weeks or months with small annotator pools. We present a Setswana sentiment dataset of 3,565 tweets annotated by three native-speaker annotators across eight batches and examine why inter-annotator agreement (IAA) declines over time. Despite an aggregate Randolph's free-marginal Kappa of $κ= 0.76$, "excellent," per-batch $κ$ falls by more than 32 points across the annotation task. Through six targeted analyses, we find that (i) label confusion concentrates on the negative/neutral boundary, (ii) two annotators show run-length drift consistent with autopilot labeling, and (iii) the dominant predictor of $κ$ is temporal simultaneity: tweets labeled within one minute achieve $κ= 0.98$, while those labeled more than a day apart reach only $κ= 0.65$. Annotation speed and tweet-level linguistic features show no meaningful association with $κ$. We benchmark three open multilingual encoders and proprietary models (GPT-5 and Gemini) on three-class sentiment classification; fine-tuning yields gains of 29 to 43 macro-F1 points over pretrained baselines, with GPT-5 few-shot leading overall (62.2 macro-F1). We release the dataset, per-annotation timestamps, and analysis code to support reproducible quality auditing for future African language NLP resources.