Creation of the Estonian Subjectivity Dataset: Assessing the Degree of Subjectivity on a Scale
作者: Karl Gustav Gailit, Kadri Muischnek, Kairit Sirts
分类: cs.CL
发布日期: 2025-12-10
备注: 9 pages, 5 figures, 2 appendixes, submitted to LREC 2026
💡 一句话要点
创建爱沙尼亚语主观性数据集,用于评估文档级主观程度
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 主观性分析 数据集构建 爱沙尼亚语 自然语言处理 大型语言模型
📋 核心要点
- 现有爱沙尼亚语主观性分析资源匮乏,缺乏高质量的标注数据集支持相关研究。
- 构建包含新闻和网页文本的大规模爱沙尼亚语主观性数据集,并进行细粒度的主观性程度标注。
- 实验表明,大型语言模型在自动主观性评分方面具有潜力,但仍需人工标注进行校正。
📝 摘要(中文)
本文介绍了爱沙尼亚语文档级主观性数据集的创建过程,分析了标注结果,并报告了使用大型语言模型(LLM)进行自动主观性分析的初步实验。该数据集包含1000篇文档,包括300篇新闻文章和700篇随机选择的网页文本,每篇文档由四位标注者在0(完全客观)到100(完全主观)的连续尺度上进行主观性评分。由于标注者之间的相关性中等,部分文本的评分差异较大,因此对评分差异最大的文本子集进行了重新标注,标注者之间的相关性有所提高。除了人工标注外,该数据集还包括GPT-5生成的评分,作为自动标注的实验。这些评分与人工标注者的评分相似,但也出现了一些差异,表明基于LLM的自动主观性评分是可行的,但不能完全替代人工标注,其适用性取决于预期应用。
🔬 方法详解
问题定义:论文旨在创建一个高质量的爱沙尼亚语文档级主观性数据集,用于训练和评估自动主观性分析模型。现有方法缺乏针对爱沙尼亚语的标注资源,且主观性判断具有模糊性,导致标注一致性难以保证。
核心思路:论文的核心思路是通过人工标注的方式,对大规模的爱沙尼亚语文档进行主观性程度的评估,并采用连续的评分尺度,以更精细地捕捉文档的主观性差异。同时,利用大型语言模型进行自动标注,并与人工标注结果进行对比分析,探索自动标注的可行性。
技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据收集:收集300篇新闻文章和700篇随机网页文本。2) 人工标注:由四位标注者对每篇文档进行0-100的主观性评分。3) 标注质量控制:计算标注者之间的相关性,对差异较大的文本进行重新标注。4) 自动标注:使用GPT-5对文档进行自动主观性评分。5) 结果分析:对比人工标注和自动标注的结果,分析差异和潜在原因。
关键创新:该研究的关键创新在于:1) 构建了首个大规模的爱沙尼亚语文档级主观性数据集,填补了该语言资源上的空白。2) 采用了连续的评分尺度,能够更精细地捕捉文档的主观性程度。3) 探索了大型语言模型在自动主观性评分方面的潜力,为自动化标注提供了新的思路。
关键设计:在人工标注阶段,采用了四位标注者共同评分的方式,以提高标注的可靠性。对于标注差异较大的文本,进行了重新标注,并计算了标注者之间的相关性,以评估标注质量。在使用GPT-5进行自动标注时,采用了prompt engineering的方式,引导模型进行主观性评分。没有提及损失函数和网络结构等细节,因为GPT-5是黑盒模型。
📊 实验亮点
该研究构建了包含1000篇文档的爱沙尼亚语主观性数据集,并进行了详细的标注质量分析。实验结果表明,GPT-5在自动主观性评分方面具有一定的能力,但与人工标注相比仍存在差距。标注者之间的相关性在重新标注后有所提高,表明标注质量控制的重要性。
🎯 应用场景
该数据集可应用于爱沙尼亚语新闻情感分析、舆情监控、虚假信息检测等领域。通过训练自动主观性分析模型,可以提高信息过滤和内容推荐的准确性,帮助用户更好地理解和评估信息。未来,该数据集可以扩展到其他领域,并与其他语言的主观性数据集进行比较研究。
📄 摘要(原文)
This article presents the creation of an Estonian-language dataset for document-level subjectivity, analyzes the resulting annotations, and reports an initial experiment of automatic subjectivity analysis using a large language model (LLM). The dataset comprises of 1,000 documents-300 journalistic articles and 700 randomly selected web texts-each rated for subjectivity on a continuous scale from 0 (fully objective) to 100 (fully subjective) by four annotators. As the inter-annotator correlations were moderate, with some texts receiving scores at the opposite ends of the scale, a subset of texts with the most divergent scores was re-annotated, with the inter-annotator correlation improving. In addition to human annotations, the dataset includes scores generated by GPT-5 as an experiment on annotation automation. These scores were similar to human annotators, however several differences emerged, suggesting that while LLM based automatic subjectivity scoring is feasible, it is not an interchangeable alternative to human annotation, and its suitability depends on the intended application.