Automatic Classification of News Subjects in Broadcast News: Application to a Gender Bias Representation Analysis
作者: Valentin Pelloin, Lena Dodson, Émile Chapuis, Nicolas Hervé, David Doukhan
分类: cs.CL, eess.AS
发布日期: 2024-07-19
备注: Accepted to Interspeech 2024
💡 一句话要点
提出一种基于LLM的新闻主题自动分类框架,用于分析法国广播新闻中的性别偏见。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 新闻主题分类 性别偏见分析 大型语言模型 少量样本学习 模型微调
📋 核心要点
- 现有方法难以有效分析大规模广播新闻中的性别偏见,缺乏自动化的主题分类工具。
- 利用LLM的少量样本学习能力,对新闻转录进行主题分类,并微调小型模型以降低计算成本。
- 实验结果表明,女性在特定主题中代表性不足,且不同频道存在表征差异,验证了框架的有效性。
📝 摘要(中文)
本文介绍了一个计算框架,旨在描绘法国电视和广播新闻所涵盖主题中的性别分布偏见。我们转录了一个包含2023年在21个法国频道播出的1.17万小时节目的数据集。使用大型语言模型(LLM)以少量样本对话模式对这些转录进行主题分类。利用生成的LLM标注,我们探索了微调一个专门的较小分类模型,以降低计算成本。为了评估这些模型的性能,我们构建并标注了一个包含804个对话的数据集,该数据集可免费用于研究目的。我们发现,女性在体育、政治和冲突等主题中的代表性明显不足。相反,在天气、商业广告和健康等主题中,女性的发言时间超过了她们在所有主题中的总体平均水平。我们还观察到私营和公共服务频道之间的表征差异。
🔬 方法详解
问题定义:该论文旨在解决法国广播新闻中性别偏见量化分析的问题。现有方法依赖人工标注,成本高昂且难以处理大规模数据。缺乏自动化的主题分类方法是分析性别偏见的关键瓶颈。
核心思路:利用大型语言模型(LLM)强大的文本理解和生成能力,以少量样本学习的方式进行新闻主题分类。然后,通过微调小型模型,在保证分类性能的同时,降低计算成本,实现高效的大规模数据分析。
技术框架:整体框架包含以下几个主要阶段:1) 数据收集与转录:收集法国电视和广播新闻数据,并进行自动语音转录。2) LLM主题分类:使用LLM在少量样本对话模式下对转录文本进行主题分类,生成标注数据。3) 小型模型微调:利用LLM生成的标注数据,微调一个专门的较小分类模型。4) 性别偏见分析:基于主题分类结果,分析不同主题中女性的代表性,并比较不同频道之间的差异。
关键创新:该论文的关键创新在于将LLM应用于广播新闻主题分类,并利用LLM生成的标注数据进行小型模型微调。这种方法结合了LLM的强大能力和小型模型的效率,实现了自动化、高效的性别偏见分析。与传统方法相比,无需大量人工标注,降低了成本。
关键设计:在LLM主题分类阶段,采用少量样本对话模式,通过提供少量示例,引导LLM进行主题分类。在小型模型微调阶段,选择合适的预训练模型作为基础,并根据新闻主题分类任务进行微调。具体参数设置和损失函数选择未知,论文中可能未详细描述。
🖼️ 关键图片
📊 实验亮点
实验结果表明,女性在体育、政治和冲突等主题中的代表性明显不足,而在天气、商业广告和健康等主题中,女性的发言时间超过了平均水平。此外,研究还观察到私营和公共服务频道之间存在表征差异。论文提供了一个包含804个对话的数据集,可免费用于研究目的。
🎯 应用场景
该研究成果可应用于媒体内容分析、性别平等研究、舆情监测等领域。通过自动分析新闻报道中的性别比例和主题分布,可以帮助媒体机构评估其报道的公正性,促进性别平等。此外,该框架还可扩展到其他类型的文本数据分析,例如社交媒体内容分析。
📄 摘要(原文)
This paper introduces a computational framework designed to delineate gender distribution biases in topics covered by French TV and radio news. We transcribe a dataset of 11.7k hours, broadcasted in 2023 on 21 French channels. A Large Language Model (LLM) is used in few-shot conversation mode to obtain a topic classification on those transcriptions. Using the generated LLM annotations, we explore the finetuning of a specialized smaller classification model, to reduce the computational cost. To evaluate the performances of these models, we construct and annotate a dataset of 804 dialogues. This dataset is made available free of charge for research purposes. We show that women are notably underrepresented in subjects such as sports, politics and conflicts. Conversely, on topics such as weather, commercials and health, women have more speaking time than their overall average across all subjects. We also observe representations differences between private and public service channels.