LLM Analysis of 150+ years of German Parliamentary Debates on Migration Reveals Shift from Post-War Solidarity to Anti-Solidarity in the Last Decade
作者: Aida Kostikova, Ole Pütz, Steffen Eger, Olga Sabelfeld, Benjamin Paassen
分类: cs.CL, cs.CY, cs.LG
发布日期: 2025-09-08
💡 一句话要点
利用LLM分析德国议会百年辩论,揭示从战后团结到反团结的转变
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 政治文本分析 情感分析 移民政策 德国议会辩论
📋 核心要点
- 传统政治文本分析依赖大量人工标注,成本高昂且分析范围受限,难以捕捉长期趋势。
- 利用LLM自动化标注政治文本中的(反)团结情绪,从而大规模分析德国议会百年辩论。
- 实验揭示了德国议会中移民相关辩论的趋势变化,从战后团结转向2015年后的反团结。
📝 摘要(中文)
本研究利用大型语言模型(LLM)分析了德国议会150多年来关于移民问题的辩论,涵盖了从二战后数百万流离失所者到近期难民潮等广泛现象。传统上,深入研究此类政治言论需要大量人工标注,限制了分析范围。LLM有潜力部分自动化复杂的标注任务。本文对多个LLM在标注德国议会辩论中(反)团结子类型方面的表现进行了广泛评估,并与数千个人工参考标注进行了比较。评估了模型大小、提示差异、微调、历史数据与当代数据的影响,并调查了系统性误差。除了方法论评估外,还从社会科学角度解释了由此产生的标注结果,从而更深入地了解二战后至今德国议会中针对移民的(反)团结趋势。数据显示,战后时期对移民的团结程度很高,但自2015年以来,德国议会中出现了强烈的反团结趋势,这促使人们进行进一步研究。这些发现突显了LLM在政治文本分析中的前景,以及移民辩论在德国的重要性,在德国,人口下降和劳动力短缺与日益加剧的两极分化并存。
🔬 方法详解
问题定义:论文旨在解决政治文本分析中人工标注成本高、效率低的问题,特别是针对大规模历史政治辩论数据的分析。现有方法难以捕捉长期趋势,并且容易受到主观偏见的影响。论文聚焦于德国议会关于移民问题的辩论,旨在量化和分析议员们在不同时期表达的对移民的(反)团结情绪。
核心思路:论文的核心思路是利用大型语言模型(LLM)的文本理解和生成能力,自动化标注政治文本中的情感倾向,特别是(反)团结情绪。通过训练和评估LLM,使其能够识别和分类议员在辩论中表达的对移民的积极或消极态度。这种方法旨在克服人工标注的局限性,实现对大规模历史数据的快速、客观分析。
技术框架:整体框架包括以下几个主要阶段:1) 数据收集:收集德国议会150多年来的辩论记录,形成大规模文本数据集。2) 人工标注:聘请专家对部分数据进行人工标注,作为LLM训练和评估的参考标准。3) LLM选择与微调:选择合适的LLM,并使用人工标注数据进行微调,使其适应政治文本分析任务。4) 自动化标注:使用微调后的LLM对整个数据集进行自动化标注,生成(反)团结情绪的标签。5) 结果分析:对LLM的标注结果进行统计分析,揭示不同时期议员对移民的(反)团结情绪变化趋势。
关键创新:论文的关键创新在于将LLM应用于大规模历史政治文本分析,并验证了其在标注复杂情感倾向方面的有效性。与传统方法相比,LLM能够显著降低标注成本,提高分析效率,并减少主观偏见。此外,论文还深入研究了不同LLM模型大小、提示策略、微调方法对标注结果的影响,为后续研究提供了有价值的经验。
关键设计:论文的关键设计包括:1) 精心设计的提示语(Prompting),用于引导LLM理解标注任务。2) 多种LLM模型的对比评估,包括不同大小的模型和不同架构的模型。3) 详细的误差分析,用于识别LLM的系统性错误,并指导模型改进。4) 采用社会科学的视角,对LLM的标注结果进行深入解读,揭示政治辩论背后的社会趋势。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在标注政治文本中的(反)团结情绪方面表现出色,与人工标注结果具有较高的一致性。研究发现,自2015年以来,德国议会中针对移民的反团结情绪显著增强,这一趋势与欧洲难民危机等事件密切相关。不同模型大小、提示策略和微调方法对标注结果有一定影响,但总体而言,LLM能够有效地捕捉政治文本中的情感倾向。
🎯 应用场景
该研究成果可应用于政治学、社会学、历史学等领域,用于分析政治文本、舆情监测、政策评估等方面。通过自动化分析大规模文本数据,可以更深入地了解社会思潮的演变、政治立场的转变以及政策效果的评估。此外,该方法还可以推广到其他语言和文化背景下,为跨文化研究提供新的工具。
📄 摘要(原文)
Migration has been a core topic in German political debate, from millions of expellees post World War II over labor migration to refugee movements in the recent past. Studying political speech regarding such wide-ranging phenomena in depth traditionally required extensive manual annotations, limiting the scope of analysis to small subsets of the data. Large language models (LLMs) have the potential to partially automate even complex annotation tasks. We provide an extensive evaluation of a multiple LLMs in annotating (anti-)solidarity subtypes in German parliamentary debates compared to a large set of thousands of human reference annotations (gathered over a year). We evaluate the influence of model size, prompting differences, fine-tuning, historical versus contemporary data; and we investigate systematic errors. Beyond methodological evaluation, we also interpret the resulting annotations from a social science lense, gaining deeper insight into (anti-)solidarity trends towards migrants in the German post-World War II period and recent past. Our data reveals a high degree of migrant-directed solidarity in the postwar period, as well as a strong trend towards anti-solidarity in the German parliament since 2015, motivating further research. These findings highlight the promise of LLMs for political text analysis and the importance of migration debates in Germany, where demographic decline and labor shortages coexist with rising polarization.