LLM Analysis of 150+ years of German Parliamentary Debates on Migration Reveals Shift from Post-War Solidarity to Anti-Solidarity in the Last Decade

📄 arXiv: 2509.07274 📥 PDF

作者: Aida Kostikova, Ole Pütz, Steffen Eger, Olga Sabelfeld, Benjamin Paassen

分类: cs.CL, cs.CY, cs.LG

发布日期: 2026-04-06


💡 一句话要点

利用LLM分析德国议会百年辩论,揭示从战后团结到反团结的转变

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 情感分析 政治文本分析 社会科学 偏差校正 监督学习 移民问题

📋 核心要点

  1. 现有方法难以对大规模政治文本进行深入分析,主要受限于人工标注成本高昂和数据范围窄。
  2. 利用大型语言模型自动标注政治文本中的团结和反团结倾向,并结合统计方法减少偏差。
  3. 实验表明,强大的LLM如GPT-5在标注任务上达到人类水平,结合DSL能有效减少长期趋势估计中的偏差。

📝 摘要(中文)

本研究利用大型语言模型(LLM)分析了德国议会150多年来关于移民问题的辩论,涵盖了从战后难民安置到劳务移民和近期难民潮等广泛议题。传统上,对如此大规模的政治言论进行深入研究需要大量的人工标注,限制了分析的数据范围。LLM为此提供了一种潜在的解决方案。本文基于理论驱动的标注方案,评估了LLM在标注德国议会辩论中团结和反团结亚型方面的表现,以及由此产生的标签是否支持有效的下游推断。研究全面评估了多个LLM,分析了模型大小、提示策略、微调、历史与当代数据以及系统性误差模式的影响。结果表明,最强大的模型,特别是GPT-5和gpt-oss-120B,在该任务上达到了人类水平的一致性,但其误差仍然是系统性的,并会偏差下游结果。为了解决这个问题,研究将软标签模型输出与基于设计的监督学习(DSL)相结合,以减少长期趋势估计中的偏差。除了方法论评估之外,研究还从社会科学的角度解释了由此产生的注释,以追踪战后和当代德国对移民的团结和反团结趋势。研究表明,战后时期团结水平相对较高,尤其是在基于群体和富有同情心的形式中,而自2015年以来,反团结情绪显着上升,其框架包括排斥、不值得和资源负担。研究认为,LLM可以支持大规模的社会科学文本分析,但前提是其输出经过严格验证和统计校正。

🔬 方法详解

问题定义:论文旨在解决社会科学领域中,对大规模政治文本进行情感倾向分析的难题,特别是关于移民问题的讨论。传统方法依赖于耗时耗力的人工标注,限制了研究的规模和深度。现有方法难以捕捉长期趋势,并且容易受到研究者主观偏见的影响。

核心思路:论文的核心思路是利用大型语言模型(LLM)的强大文本理解和生成能力,自动标注政治文本中的情感倾向(团结和反团结)。为了解决LLM可能存在的偏差,论文进一步结合了基于设计的监督学习(DSL)方法,对LLM的输出进行校正,从而提高长期趋势估计的准确性。

技术框架:整体框架包含以下几个主要阶段:1) 数据收集:收集德国议会150多年来关于移民问题的辩论文本数据。2) LLM标注:使用不同的LLM(包括GPT-5和gpt-oss-120B)对文本数据进行标注,标注内容包括团结和反团结的亚型。3) 偏差分析:分析LLM标注结果中存在的系统性误差和偏差。4) 偏差校正:利用DSL方法对LLM的输出进行校正,减少偏差对长期趋势估计的影响。5) 趋势分析:基于校正后的标注结果,分析德国社会对移民问题的团结和反团结趋势。

关键创新:论文的关键创新在于将LLM与DSL方法相结合,用于分析大规模政治文本中的情感倾向。这种方法不仅提高了分析的效率,还降低了人工标注的成本,同时通过DSL方法有效减少了LLM可能存在的偏差,提高了分析结果的可靠性。

关键设计:论文的关键设计包括:1) 理论驱动的标注方案:基于社会科学理论,设计了详细的标注方案,用于指导LLM的标注过程。2) 多种LLM的评估:评估了多种LLM在标注任务上的表现,包括不同大小的模型和不同的训练数据。3) DSL方法的应用:利用DSL方法对LLM的输出进行校正,具体包括选择合适的校正模型和调整模型参数。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,GPT-5和gpt-oss-120B等大型语言模型在标注团结和反团结亚型方面达到了人类水平的一致性。通过结合DSL方法,能够有效减少LLM输出中的偏差,提高长期趋势估计的准确性。研究发现,德国社会对移民的团结情绪在战后时期较高,而自2015年以来,反团结情绪显著上升。

🎯 应用场景

该研究的方法和结论可应用于社会科学、政治学、历史学等领域,用于分析大规模文本数据中的情感倾向、意识形态演变和社会态度变迁。该方法能够帮助研究者更高效、更客观地理解社会现象,并为政策制定提供参考。

📄 摘要(原文)

Migration has been a core topic in German political debate, from the postwar displacement of millions of expellees to labor migration and recent refugee movements. Studying political speech across such wide-ranging phenomena in depth has traditionally required extensive manual annotation, limiting analysis to small subsets of the data. Large language models (LLMs) offer a potential way to overcome this constraint. Using a theory-driven annotation scheme, we examine how well LLMs annotate subtypes of solidarity and anti-solidarity in German parliamentary debates and whether the resulting labels support valid downstream inference. We first provide a comprehensive evaluation of multiple LLMs, analyzing the effects of model size, prompting strategies, fine-tuning, historical versus contemporary data, and systematic error patterns. We find that the strongest models, especially GPT-5 and gpt-oss-120B, achieve human-level agreement on this task, although their errors remain systematic and bias downstream results. To address this issue, we combine soft-label model outputs with Design-based Supervised Learning (DSL) to reduce bias in long-term trend estimates. Beyond the methodological evaluation, we interpret the resulting annotations from a social-scientific perspective to trace trends in solidarity and anti-solidarity toward migrants in postwar and contemporary Germany. Our approach shows relatively high levels of solidarity in the postwar period, especially in group-based and compassionate forms, and a marked rise in anti-solidarity since 2015, framed through exclusion, undeservingness, and resource burden. We argue that LLMs can support large-scale social-scientific text analysis, but only when their outputs are rigorously validated and statistically corrected.