Measuring Large Language Models Capacity to Annotate Journalistic Sourcing

📄 arXiv: 2501.00164v2 📥 PDF

作者: Subramaniam Vincent, Phoebe Wang, Zhan Shi, Sahas Koka, Yi Fang

分类: cs.CL, cs.CY

发布日期: 2024-12-30 (更新: 2025-04-03)


💡 一句话要点

评估大语言模型在新闻报道溯源标注能力,构建新闻伦理基准

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 新闻溯源 新闻伦理 自动标注 基准测试

📋 核心要点

  1. 现有新闻溯源标注缺乏自动化评估基准,难以有效区分新闻报道的伦理严谨性。
  2. 提出基于新闻学理论的五类别溯源标注体系,用于评估LLM在新闻溯源方面的能力。
  3. 实验结果表明,LLM在识别新闻报道中的溯源信息和溯源理由方面仍有提升空间。

📝 摘要(中文)

自2022年末ChatGPT发布以来,大语言模型的能力及其评估一直是学术界和工业界持续讨论和评估的主题。法律、医学和数学等多个领域已经开发了场景和基准,并且模型变体的评估也在不断进行。新闻业,特别是新闻报道的溯源和伦理,尚未得到足够的关注。新闻业是民主社会中至关重要的真相确定功能,而溯源是所有原创新闻报道的关键支柱。评估LLM在新闻报道中识别和标注不同溯源信号以及记者如何证明其合理性的能力,是一个值得基准测试的重要场景。它为构建自动化系统以区分更透明和伦理严谨的新闻报道形式与日常新闻报道提供了潜力。本文提出了一个评估LLM在新闻报道中识别和标注溯源的场景,使用了一个受新闻学研究启发的五类别模式。我们提供了用例、数据集和指标,作为系统基准测试的第一步。我们的准确性结果表明,基于LLM的方法在识别故事中所有来源的陈述以及匹配来源类型方面还有很多工作要做。更困难的任务是发现来源的理由。

🔬 方法详解

问题定义:论文旨在评估大语言模型(LLM)在新闻报道中识别和标注溯源信息的能力。现有方法缺乏针对新闻溯源的系统性评估,难以区分不同新闻报道在伦理和透明度上的差异。这阻碍了自动化系统对新闻质量的评估和提升。

核心思路:论文的核心思路是构建一个新闻溯源标注的基准数据集和评估体系,利用LLM对新闻报道进行溯源信息的自动标注,并根据标注结果评估LLM在新闻溯源方面的能力。通过这种方式,可以量化LLM在理解和应用新闻伦理方面的能力,并为后续研究提供参考。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 定义新闻溯源的五类别标注体系,该体系基于新闻学理论,涵盖了不同类型的溯源信息;2) 构建包含新闻报道和人工标注的数据集;3) 利用LLM对新闻报道进行自动标注;4) 使用准确率等指标评估LLM的标注结果。

关键创新:该论文的关键创新在于将新闻学理论与自然语言处理技术相结合,构建了一个用于评估LLM在新闻溯源方面能力的基准。该基准的提出填补了新闻伦理评估方面的空白,为后续研究提供了新的方向。

关键设计:论文的关键设计包括:1) 五类别溯源标注体系的设计,该体系需要充分考虑新闻报道的特点和新闻伦理的要求;2) 数据集的构建,需要保证数据的质量和多样性;3) 评估指标的选择,需要能够准确反映LLM在新闻溯源方面的能力。

📊 实验亮点

实验结果表明,LLM在识别新闻报道中的溯源信息和溯源理由方面仍有提升空间。具体而言,LLM在识别所有来源的陈述以及匹配来源类型方面表现不佳,尤其是在发现来源的理由方面。这些结果为后续研究提供了改进方向,例如可以针对性地优化LLM的模型结构和训练数据。

🎯 应用场景

该研究成果可应用于自动化新闻质量评估、新闻伦理监控、虚假信息检测等领域。通过自动识别和标注新闻报道中的溯源信息,可以帮助读者更好地了解新闻报道的可靠性和透明度,从而提升新闻行业的整体质量。未来,该研究还可以扩展到其他类型的新闻报道和媒体形式。

📄 摘要(原文)

Since the launch of ChatGPT in late 2022, the capacities of Large Language Models and their evaluation have been in constant discussion and evaluation both in academic research and in the industry. Scenarios and benchmarks have been developed in several areas such as law, medicine and math (Bommasani et al., 2023) and there is continuous evaluation of model variants. One area that has not received sufficient scenario development attention is journalism, and in particular journalistic sourcing and ethics. Journalism is a crucial truth-determination function in democracy (Vincent, 2023), and sourcing is a crucial pillar to all original journalistic output. Evaluating the capacities of LLMs to annotate stories for the different signals of sourcing and how reporters justify them is a crucial scenario that warrants a benchmark approach. It offers potential to build automated systems to contrast more transparent and ethically rigorous forms of journalism with everyday fare. In this paper we lay out a scenario to evaluate LLM performance on identifying and annotating sourcing in news stories on a five-category schema inspired from journalism studies (Gans, 2004). We offer the use case, our dataset and metrics and as the first step towards systematic benchmarking. Our accuracy findings indicate LLM-based approaches have more catching to do in identifying all the sourced statements in a story, and equally, in matching the type of sources. An even harder task is spotting source justifications.