Newswire: A Large-Scale Structured Database of a Century of Historical News
作者: Emily Silcock, Abhishek Arora, Luca D'Amico-Wong, Melissa Dell
分类: cs.CL, econ.GN
发布日期: 2024-06-13
备注: arXiv admin note: text overlap with arXiv:2306.17810, arXiv:2308.12477
💡 一句话要点
构建大规模历史新闻数据库Newswire,助力语言模型和社会科学研究。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 历史新闻 大规模数据集 深度学习 信息抽取 实体消歧
📋 核心要点
- 缺乏全面新闻专线档案阻碍了对美国国家认同和世界观形成的研究,现有方法难以处理海量报纸图像扫描。
- 论文提出定制的深度学习流程,从原始报纸图像中提取结构化新闻文章,并进行去重、主题分类、实体识别和消歧。
- 构建了包含270万篇新闻文章的大规模数据集Newswire,时间跨度近一个世纪,为语言模型训练和社会科学研究提供宝贵资源。
📝 摘要(中文)
本文通过对数千份地方报纸的原始图像扫描进行深度学习处理,重建了一个世纪以来的美国新闻专线内容档案。该数据集包含1878年至1977年间撰写的270万篇独特的公共领域美国新闻专线文章。文章中的地点经过地理参考,主题使用定制的神经主题分类进行标记,命名实体被识别,个人使用一种新颖的实体消歧模型消歧到维基百科。为了构建Newswire数据集,首先识别报纸布局并从原始图像扫描中转录大约1.38亿篇结构化文章文本。然后,使用定制的神经双编码器模型来删除重复的文章,量化每篇文章的转载范围。使用文本分类器来确保只包括历史上属于公共领域的新闻专线文章。伴随文本的结构化数据提供了关于数百万美国人在一个世纪内阅读的新闻的丰富信息,包括人物(消歧的个人)、事件(主题)和地点(地理参考)。还包括美国国会图书馆关于在头版刊登文章的报纸的元数据信息。Newswire数据集可用于大型语言建模(将训练数据扩展到现代网络文本之外)以及计算语言学、社会科学和数字人文领域的多样化问题研究。
🔬 方法详解
问题定义:本研究旨在构建一个大规模的、结构化的历史新闻数据库,以填补现有新闻专线内容档案的空白。现有方法难以处理数千份地方报纸的海量原始图像扫描,并且在存在大量删节和噪声的情况下,难以有效地识别和去重重复的文章。
核心思路:核心思路是利用深度学习技术,构建一个定制化的数据处理流程,从原始报纸图像中提取结构化文本,并进行去重、主题分类、实体识别和消歧。通过这种方式,可以有效地处理海量数据,并提取出有价值的信息。
技术框架:整体框架包含以下几个主要模块:1) 报纸布局识别和文章文本转录:使用深度学习模型识别报纸布局,并将原始图像扫描转换为结构化的文章文本。2) 文章去重:使用定制的神经双编码器模型,在存在大量删节和噪声的情况下,对重复的文章进行去重。3) 新闻专线文章分类:使用文本分类器,确保只包括新闻专线文章。4) 地理参考:对文章中的地点进行地理参考。5) 主题分类:使用定制的神经主题分类模型对文章进行主题标记。6) 命名实体识别:识别文章中的命名实体。7) 实体消歧:使用一种新颖的实体消歧模型,将文章中的个人消歧到维基百科。
关键创新:关键创新在于定制化的深度学习流程,特别是神经双编码器去重模型和实体消歧模型。神经双编码器模型能够有效地处理大量删节和噪声,从而准确地识别和去重重复的文章。实体消歧模型能够将文章中的个人消歧到维基百科,从而提供更丰富的信息。
关键设计:关于神经双编码器模型,具体结构和损失函数未知。实体消歧模型的具体设计也未知。文本分类器和神经主题分类器的具体实现细节也未知。
🖼️ 关键图片
📊 实验亮点
该研究构建了一个包含270万篇新闻文章的大规模数据集Newswire,时间跨度近一个世纪(1878-1977)。通过定制的深度学习流程,实现了对原始报纸图像的高效处理和信息提取。论文量化了每篇文章的转载范围,并提供了丰富的结构化数据,包括地理参考、主题标记、命名实体识别和实体消歧等。
🎯 应用场景
Newswire数据集可广泛应用于计算语言学、社会科学和数字人文等领域。它可以用于训练大型语言模型,扩展训练数据,提高模型的性能。此外,它还可以用于研究历史事件、社会趋势和文化变迁,为社会科学研究提供新的视角和数据支持。该数据集还有助于数字人文领域的研究,例如分析新闻报道中的偏见和意识形态。
📄 摘要(原文)
In the U.S. historically, local newspapers drew their content largely from newswires like the Associated Press. Historians argue that newswires played a pivotal role in creating a national identity and shared understanding of the world, but there is no comprehensive archive of the content sent over newswires. We reconstruct such an archive by applying a customized deep learning pipeline to hundreds of terabytes of raw image scans from thousands of local newspapers. The resulting dataset contains 2.7 million unique public domain U.S. newswire articles, written between 1878 and 1977. Locations in these articles are georeferenced, topics are tagged using customized neural topic classification, named entities are recognized, and individuals are disambiguated to Wikipedia using a novel entity disambiguation model. To construct the Newswire dataset, we first recognize newspaper layouts and transcribe around 138 millions structured article texts from raw image scans. We then use a customized neural bi-encoder model to de-duplicate reproduced articles, in the presence of considerable abridgement and noise, quantifying how widely each article was reproduced. A text classifier is used to ensure that we only include newswire articles, which historically are in the public domain. The structured data that accompany the texts provide rich information about the who (disambiguated individuals), what (topics), and where (georeferencing) of the news that millions of Americans read over the course of a century. We also include Library of Congress metadata information about the newspapers that ran the articles on their front pages. The Newswire dataset is useful both for large language modeling - expanding training data beyond what is available from modern web texts - and for studying a diversity of questions in computational linguistics, social science, and the digital humanities.