Approaches to Analysing Historical Newspapers Using LLMs

📄 arXiv: 2603.25051v1 📥 PDF

作者: Filip Dobranić, Tina Munda, Oliver Pejić, Vojko Gorjanc, Uroš Šmajdek, David Bordon, Jakob Lenardič, Tjaša Konovšek, Kristina Pahor de Maiti Tekavčič, Ciril Bohak, Darja Fišer

分类: cs.CL

发布日期: 2026-03-26


💡 一句话要点

结合LLM与传统方法,分析斯洛文尼亚历史报纸的集体认同与政治倾向。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 历史报纸分析 大型语言模型 情感分析 主题建模 实体图 数字人文 集体认同

📋 核心要点

  1. 现有方法难以有效分析大规模、噪声大的历史报纸数据,尤其是在集体认同和政治倾向等复杂概念的挖掘上。
  2. 本研究结合主题建模、情感分析、实体图等多种技术,并利用LLM进行情感分类,以分析历史报纸中的集体认同和政治倾向。
  3. 实验表明,该方法能够有效识别报纸中的主题模式和情感倾向,并揭示集体认同与地点之间的关系,为数字人文研究提供支持。

📝 摘要(中文)

本研究对来自sPeriodika语料库的斯洛文尼亚历史报纸《Slovenec》和《Slovenski narod》进行了计算分析。通过结合主题建模、基于大型语言模型(LLM)的方面级情感分析、实体图可视化和定性话语分析,探讨了二十世纪初集体认同、政治倾向和民族归属如何在公共 discourse 中呈现。使用BERTopic,我们识别了主要的主题模式,并展示了两份报纸之间的共同关注点和明显的意识形态差异,反映了它们保守天主教和自由进步的倾向。我们进一步评估了四个指令跟随LLM在OCR降级的历史斯洛文尼亚语中的目标情感分类,并选择了斯洛文尼亚语改编的GaMS3-12B-Instruct模型作为最适合大规模应用的模型,同时也记录了重要的局限性,特别是它在中性情感上的表现优于积极或消极情感。在数据集规模上应用该模型,揭示了集体认同描述中意义重大的变化,一些群体主要出现在中性描述性语境中,而另一些群体更常出现在评价性或与冲突相关的 discourse 中。然后,我们创建NER图来探索集体认同和地点之间的关系。我们采用混合方法来分析命名实体图,将定量网络分析与批判性 discourse 分析相结合。调查重点是相互交织的历史政治和社会经济认同的出现和发展。总的来说,该研究证明了将可扩展的计算方法与批判性解释相结合,以支持对嘈杂的历史报纸数据进行数字人文研究的价值。

🔬 方法详解

问题定义:本研究旨在分析斯洛文尼亚历史报纸《Slovenec》和《Slovenski narod》中集体认同、政治倾向和民族归属的呈现方式。现有方法在处理OCR降级、噪声大的历史文本数据时存在局限性,难以有效提取深层语义信息和进行情感分析。此外,传统方法难以将多种分析方法有效结合,从而无法全面理解历史报纸中的复杂关系。

核心思路:本研究的核心思路是结合传统文本分析方法(如主题建模、命名实体识别)和大型语言模型(LLM)的强大语义理解能力,以更有效地分析历史报纸数据。通过LLM进行方面级情感分析,可以更准确地捕捉文本中的情感倾向。同时,结合实体图可视化和定性话语分析,可以更全面地理解集体认同、政治倾向和地点之间的复杂关系。

技术框架:整体框架包括以下几个主要阶段:1) 数据预处理:对历史报纸文本进行OCR纠错和清洗。2) 主题建模:使用BERTopic识别报纸中的主要主题模式。3) 情感分析:使用LLM(GaMS3-12B-Instruct)进行方面级情感分类。4) 实体图构建:使用NER提取命名实体,构建实体关系图。5) 混合方法分析:结合定量网络分析和批判性话语分析,分析实体图中的关系。

关键创新:本研究的关键创新在于将LLM应用于历史报纸的情感分析,并结合多种分析方法,从而能够更全面、深入地理解历史文本中的复杂关系。特别是在处理OCR降级、噪声大的历史文本数据时,LLM的强大语义理解能力能够有效提升情感分析的准确性。此外,混合方法分析能够将定量分析和定性分析相结合,从而更全面地理解历史文本的意义。

关键设计:在情感分析方面,选择了斯洛文尼亚语改编的GaMS3-12B-Instruct模型,并针对历史文本的特点进行了微调。在实体图构建方面,使用了NER技术提取命名实体,并根据实体之间的共现关系构建实体关系图。在混合方法分析方面,使用了网络分析指标(如中心性、密度)来量化实体之间的关系,并结合批判性话语分析来解读实体关系背后的历史意义。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,斯洛文尼亚语改编的GaMS3-12B-Instruct模型在历史斯洛文尼亚语情感分类任务中表现良好,尽管在中性情感上的表现优于积极或消极情感。通过对《Slovenec》和《Slovenski narod》两份报纸的分析,揭示了它们在主题模式和情感倾向上的差异,反映了它们不同的意识形态倾向。

🎯 应用场景

该研究方法可应用于其他历史文本的分析,例如历史书籍、信件等。其潜在应用领域包括历史研究、政治学研究、社会学研究等。该研究有助于更深入地理解历史事件、社会变迁和文化发展,并为数字人文研究提供新的工具和方法。

📄 摘要(原文)

This study presents a computational analysis of the Slovene historical newspapers \textit{Slovenec} and \textit{Slovenski narod} from the sPeriodika corpus, combining topic modelling, large language model (LLM)-based aspect-level sentiment analysis, entity-graph visualisation, and qualitative discourse analysis to examine how collective identities, political orientations, and national belonging were represented in public discourse at the turn of the twentieth century. Using BERTopic, we identify major thematic patterns and show both shared concerns and clear ideological differences between the two newspapers, reflecting their conservative-Catholic and liberal-progressive orientations. We further evaluate four instruction-following LLMs for targeted sentiment classification in OCR-degraded historical Slovene and select the Slovene-adapted GaMS3-12B-Instruct model as the most suitable for large-scale application, while also documenting important limitations, particularly its stronger performance on neutral sentiment than on positive or negative sentiment. Applied at dataset scale, the model reveals meaningful variation in the portrayal of collective identities, with some groups appearing predominantly in neutral descriptive contexts and others more often in evaluative or conflict-related discourse. We then create NER graphs to explore the relationships between collective identities and places. We apply a mixed methods approach to analyse the named entity graphs, combining quantitative network analysis with critical discourse analysis. The investigation focuses on the emergence and development of intertwined historical political and socionomic identities. Overall, the study demonstrates the value of combining scalable computational methods with critical interpretation to support digital humanities research on noisy historical newspaper data.