In Silico Sociology: Forecasting COVID-19 Polarization with Large Language Models

📄 arXiv: 2407.11190v1 📥 PDF

作者: Austin C. Kozlowski, Hyunku Kwon, James A. Evans

分类: cs.CY, cs.AI, cs.CL

发布日期: 2024-05-23


💡 一句话要点

利用大型语言模型预测COVID-19时期的社会极化现象

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社会极化 COVID-19 舆论预测 计算社会科学

📋 核心要点

  1. 现有方法难以准确模拟社会文化背景对个体观点的影响,阻碍了对社会极化等现象的深入研究。
  2. 利用LLM学习到的复杂语言模式,模拟特定社会文化背景下的个体,从而重构公共舆论。
  3. 实验表明,该方法能够以显著高于随机水平的准确度重现党派在COVID-19态度上的差异,验证了其有效性。

📝 摘要(中文)

本文提出了一种利用大型语言模型(LLM)进行社会学研究的新方法,通过模拟特定社会文化背景下的个体,重构公共舆论。研究者使用在2019年之前发布的文本上训练的LLM,模拟美国自由派和保守派对一系列与疫情相关问题的回答。结果表明,模拟的受访者在84%的情况下重现了观察到的党派在COVID-19态度上的差异,显著高于随机水平。通过分析模拟受访者对答案的理由,发现党派差距主要源于对自由、安全和制度信任的不同诉求。研究结果表明,COVID-19的政治化在很大程度上与先前的意识形态格局一致,这一事件加速了历史进程,而非改变了既有轨迹。

🔬 方法详解

问题定义:论文旨在解决如何预测和理解COVID-19疫情期间的社会极化现象。现有方法难以准确模拟个体在特定社会文化背景下的观点,无法有效分析政治立场对疫情态度的影响。

核心思路:核心思路是利用大型语言模型(LLM)学习到的语言模式,模拟不同政治立场的个体对疫情相关问题的回答。通过分析模拟结果,揭示政治立场与疫情态度之间的关联,从而预测和理解社会极化现象。

技术框架:整体框架包括以下几个阶段:1) 使用2019年之前的文本数据训练LLM;2) 设计一系列与疫情相关的问题;3) 使用LLM模拟美国自由派和保守派对这些问题的回答;4) 分析模拟结果,比较不同政治立场的个体在疫情态度上的差异;5) 分析模拟个体对答案的理由,揭示潜在的意识形态差异。

关键创新:关键创新在于将LLM应用于社会学研究,通过模拟个体观点来分析社会现象。与传统调查方法相比,该方法可以更高效地获取大量数据,并深入挖掘个体观点背后的原因。

关键设计:论文使用了在大量文本数据上预训练的LLM,并针对特定任务进行了微调。通过prompting的方式引导LLM生成回答,并分析回答中的关键词和主题,以揭示不同政治立场的个体在疫情态度上的差异。具体的技术细节包括prompt的设计、LLM的选择、以及分析方法的选择。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用LLM模拟的受访者在84%的情况下重现了观察到的党派在COVID-19态度上的差异,显著高于随机水平。这表明LLM能够有效地模拟个体在特定社会文化背景下的观点,为社会学研究提供了一种新的工具。

🎯 应用场景

该研究方法可应用于预测和理解各种社会现象,例如气候变化、移民政策等。通过模拟不同社会群体对特定问题的看法,可以帮助政策制定者更好地了解民意,制定更有效的政策。此外,该方法还可以用于分析社会舆论的演变趋势,预测未来可能出现的社会问题。

📄 摘要(原文)

By training deep neural networks on massive archives of digitized text, large language models (LLMs) learn the complex linguistic patterns that constitute historic and contemporary discourses. We argue that LLMs can serve as a valuable tool for sociological inquiry by enabling accurate simulation of respondents from specific social and cultural contexts. Applying LLMs in this capacity, we reconstruct the public opinion landscape of 2019 to examine the extent to which the future polarization over COVID-19 was prefigured in existing political discourse. Using an LLM trained on texts published through 2019, we simulate the responses of American liberals and conservatives to a battery of pandemic-related questions. We find that the simulated respondents reproduce observed partisan differences in COVID-19 attitudes in 84% of cases, significantly greater than chance. Prompting the simulated respondents to justify their responses, we find that much of the observed partisan gap corresponds to differing appeals to freedom, safety, and institutional trust. Our findings suggest that the politicization of COVID-19 was largely consistent with the prior ideological landscape, and this unprecedented event served to advance history along its track rather than change the rails.