Vox Populi, Vox AI? Using Language Models to Estimate German Public Opinion

📄 arXiv: 2407.08563v1 📥 PDF

作者: Leah von der Heyde, Anna-Carolina Haensch, Alexander Wenz

分类: cs.AI, cs.CY, stat.AP

发布日期: 2024-07-11

期刊: Social Science Computer Review (2025)

DOI: 10.1177/08944393251337014


💡 一句话要点

利用语言模型评估德国公众意见:GPT-3.5在预测选民投票选择方面存在偏差

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 公众意见估计 投票选择预测 GPT-3.5 德国选举研究

📋 核心要点

  1. 现有公众意见调查成本高昂且存在偏差,探索利用LLM生成合成样本以替代传统调查成为研究热点。
  2. 本研究通过构建与德国选民特征匹配的合成样本,利用GPT-3.5预测其投票选择,评估LLM预测公众意见的准确性。
  3. 实验表明GPT-3.5在预测德国选民投票选择方面存在偏差,对绿党和左翼政党存在过度预测。

📝 摘要(中文)

大型语言模型(LLM)的最新发展引发了关于LLM生成的“合成样本”是否可以补充或取代传统调查的讨论,因为它们的训练数据可能反映了人群中普遍存在的态度和行为。一些主要基于美国的研究已经提示LLM模仿调查对象,其中一些研究发现,LLM的回答与调查数据非常吻合。然而,与目标人群和LLM训练数据之间关系相关的几个背景因素可能会影响这些发现的普遍性。在本研究中,我们以选民选择为例,调查LLM在多大程度上可以估计德国的公众意见。我们生成了一个与2017年德国纵向选举研究的受访者个人特征相匹配的合成样本。我们要求LLM GPT-3.5预测每个受访者的投票选择,并将这些预测与基于调查的总体和亚组层面的估计进行比较。我们发现GPT-3.5不能准确预测公民的投票选择,表现出对绿党和左翼政党的偏见。虽然LLM捕捉到了“典型”选民亚组(如党派人士)的倾向,但它忽略了影响个人选民选择的多方面因素。通过在一个新的背景下检验基于LLM的投票行为预测,我们的研究为关于LLM在何种条件下可以用于研究公众意见的研究做出了贡献。研究结果表明LLM在意见表征方面存在差异,并强调了将其应用于公众意见估计的局限性。

🔬 方法详解

问题定义:本研究旨在评估大型语言模型(LLM)在估计德国公众意见方面的能力,具体问题是LLM能否准确预测选民的投票选择。现有方法依赖于传统的调查,这些调查成本高昂,且可能存在抽样偏差和回答偏差。利用LLM生成合成样本并预测公众意见,被认为是一种潜在的替代方案,但其准确性和适用性尚不明确。

核心思路:核心思路是构建一个与目标人群(德国选民)特征相匹配的合成样本,然后利用LLM(GPT-3.5)对该样本进行投票选择预测。通过将LLM的预测结果与实际调查数据进行比较,评估LLM在估计公众意见方面的准确性。这种方法旨在检验LLM的训练数据是否能够反映目标人群的观点和偏好。

技术框架:整体流程包括以下几个步骤:1) 从2017年德国纵向选举研究中获取选民的个人特征数据;2) 基于这些数据,构建一个合成样本,其中每个样本代表一个具有特定特征的选民;3) 使用GPT-3.5模型,输入每个合成选民的特征信息,要求其预测该选民的投票选择;4) 将GPT-3.5的预测结果与实际调查数据进行比较,评估其准确性。

关键创新:本研究的关键创新在于将LLM应用于德国公众意见的估计,并评估其在预测选民投票选择方面的表现。与以往主要基于美国的研究不同,本研究关注的是一个不同的文化和社会背景,从而考察LLM的泛化能力。此外,本研究还关注了LLM在不同选民亚组中的预测表现,从而更深入地了解其偏差和局限性。

关键设计:研究的关键设计包括:1) 使用2017年德国纵向选举研究的数据作为ground truth;2) 使用GPT-3.5模型进行投票选择预测;3) 在总体和亚组层面比较LLM的预测结果与实际调查数据;4) 分析LLM的预测偏差,并探讨其原因。

📊 实验亮点

实验结果表明,GPT-3.5在预测德国选民的投票选择方面存在显著偏差,对绿党和左翼政党的支持率存在高估。虽然LLM能够捕捉到“典型”选民亚组的倾向,但无法准确预测个体选民的选择。这表明LLM在意见表征方面存在局限性,不宜直接用于公众意见估计。

🎯 应用场景

该研究评估了LLM在公众意见估计中的潜力与局限性,有助于指导LLM在社会科学研究中的应用。研究结果可用于改进LLM的训练数据和算法,以提高其预测公众意见的准确性。此外,该研究还为利用LLM进行舆情分析、政策制定和选举预测等领域提供了参考。

📄 摘要(原文)

The recent development of large language models (LLMs) has spurred discussions about whether LLM-generated "synthetic samples" could complement or replace traditional surveys, considering their training data potentially reflects attitudes and behaviors prevalent in the population. A number of mostly US-based studies have prompted LLMs to mimic survey respondents, with some of them finding that the responses closely match the survey data. However, several contextual factors related to the relationship between the respective target population and LLM training data might affect the generalizability of such findings. In this study, we investigate the extent to which LLMs can estimate public opinion in Germany, using the example of vote choice. We generate a synthetic sample of personas matching the individual characteristics of the 2017 German Longitudinal Election Study respondents. We ask the LLM GPT-3.5 to predict each respondent's vote choice and compare these predictions to the survey-based estimates on the aggregate and subgroup levels. We find that GPT-3.5 does not predict citizens' vote choice accurately, exhibiting a bias towards the Green and Left parties. While the LLM captures the tendencies of "typical" voter subgroups, such as partisans, it misses the multifaceted factors swaying individual voter choices. By examining the LLM-based prediction of voting behavior in a new context, our study contributes to the growing body of research about the conditions under which LLMs can be leveraged for studying public opinion. The findings point to disparities in opinion representation in LLMs and underscore the limitations in applying them for public opinion estimation.