Developing Story: Case Studies of Generative AI's Use in Journalism
作者: Natalie Grace Brigham, Chongjiu Gao, Tadayoshi Kohno, Franziska Roesner, Niloofar Mireshghallah
分类: cs.CL, cs.AI, cs.CY
发布日期: 2024-06-19 (更新: 2024-12-03)
💡 一句话要点
揭示新闻机构使用生成式AI的案例研究,强调记者与LLM互动中的敏感信息处理与内容生成风险。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 生成式AI 新闻业 大型语言模型 伦理风险 案例研究
📋 核心要点
- 现有新闻机构使用LLM的方式存在风险,可能涉及泄露敏感信息和不当内容生成。
- 通过分析记者与LLM的互动,揭示了新闻生产过程中LLM的使用模式和潜在问题。
- 研究发现,记者在有限干预下发表LLM生成的文章,引发了对新闻伦理和质量的担忧。
📝 摘要(中文)
本研究旨在深入理解新闻记者与大型语言模型(LLM)的互动。通过浏览WildChat数据集,识别候选互动,并与在线发表的文章进行匹配验证,我们对两家新闻机构的LLM使用情况进行了研究。分析揭示,记者会将敏感材料(如与消息来源的机密通信或其他机构的文章)作为刺激信息提供给LLM,并提示其生成文章。这些机器生成的文章在经过有限干预后就被发表(输出-发表文章的ROUGE-L中位数为0.62)。基于这些发现,我们呼吁进一步研究负责任地使用AI的定义,并建立在新闻领域使用LLM的明确指南和最佳实践。
🔬 方法详解
问题定义:本研究旨在解决新闻记者在使用大型语言模型(LLM)进行新闻生产时,可能存在的伦理和安全问题。现有方法缺乏对记者与LLM互动细节的深入了解,无法有效评估潜在的风险,例如敏感信息泄露和不负责任的内容生成。
核心思路:研究的核心思路是通过分析真实的新闻生产案例,揭示记者如何使用LLM,以及这种使用方式可能带来的风险。通过追踪记者与LLM的互动,并将其与最终发表的文章进行对比,可以评估LLM对新闻内容的影响,并识别潜在的伦理问题。
技术框架:研究主要包含以下几个阶段:1) 数据收集:从WildChat数据集中筛选出新闻机构用户与LLM的互动记录。2) 案例识别:通过关键词搜索和人工筛选,识别出可能涉及新闻生产的互动案例。3) 验证:将LLM的输出与在线发表的新闻文章进行匹配,确认LLM在新闻生产中的实际应用。4) 分析:对匹配的案例进行深入分析,评估LLM对新闻内容的影响,并识别潜在的伦理和安全问题。
关键创新:本研究的关键创新在于其采用了基于真实数据的案例研究方法,深入分析了新闻记者与LLM的互动细节。与以往的研究相比,本研究更注重对实际应用场景的分析,能够更准确地评估LLM在新闻生产中可能带来的风险。
关键设计:研究使用了ROUGE-L指标来评估LLM输出与最终发表文章之间的相似度,以此衡量LLM对新闻内容的贡献程度。此外,研究还对案例进行了人工分析,识别了潜在的伦理和安全问题,例如敏感信息泄露和不负责任的内容生成。
🖼️ 关键图片
📊 实验亮点
研究发现,记者会将敏感信息提供给LLM,并直接发表LLM生成的文章,且干预有限(ROUGE-L中位数为0.62)。这表明LLM在新闻生产中扮演着重要角色,但也带来了潜在的伦理和安全风险,需要引起重视。
🎯 应用场景
该研究成果可应用于新闻伦理规范制定、AI新闻工具设计和记者培训等方面。通过了解LLM在新闻生产中的使用模式和潜在风险,可以帮助新闻机构制定更合理的AI使用规范,开发更安全可靠的AI新闻工具,并提高记者对AI伦理问题的认识。
📄 摘要(原文)
Journalists are among the many users of large language models (LLMs). To better understand the journalist-AI interactions, we conduct a study of LLM usage by two news agencies through browsing the WildChat dataset, identifying candidate interactions, and verifying them by matching to online published articles. Our analysis uncovers instances where journalists provide sensitive material such as confidential correspondence with sources or articles from other agencies to the LLM as stimuli and prompt it to generate articles, and publish these machine-generated articles with limited intervention (median output-publication ROUGE-L of 0.62). Based on our findings, we call for further research into what constitutes responsible use of AI, and the establishment of clear guidelines and best practices on using LLMs in a journalistic context.