United in Diversity? Contextual Biases in LLM-Based Predictions of the 2024 European Parliament Elections

📄 arXiv: 2409.09045v2 📥 PDF

作者: Leah von der Heyde, Anna-Carolina Haensch, Alexander Wenz, Bolei Ma

分类: cs.CY, cs.AI, cs.CL, stat.AP

发布日期: 2024-08-29 (更新: 2025-04-17)


💡 一句话要点

评估LLM预测欧洲议会选举的背景偏差,揭示其在公共舆论预测中的局限性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 公共舆论预测 背景偏差 欧洲议会选举 计算社会科学

📋 核心要点

  1. 现有方法依赖人工调查预测公众意见,成本高昂且效率较低,而直接使用LLM生成合成样本进行预测面临背景偏差的挑战。
  2. 本文利用LLM对欧洲议会选举进行预测,通过分析预测结果在不同国家和语言环境下的准确性,评估LLM的背景偏差。
  3. 实验表明,LLM在预测投票行为方面表现不佳,准确性受背景因素影响显著,且需要详细的态度信息才能提升预测效果。

📝 摘要(中文)

本文研究了基于大型语言模型(LLM)的合成样本在预测个体公众意见时,是否存在与背景相关的偏差。研究假设LLM的训练数据包含人类态度和行为的信息,因此可以作为人类调查的有效替代方案。然而,LLM合成样本可能存在偏差,例如由于训练数据和微调过程不能代表不同的背景。为了评估LLM在公共舆论预测中的适用性,本文利用三个LLM,根据26000名符合条件的欧洲选民的个人背景信息,预测他们2024年欧洲议会选举的投票行为。通过与实际结果的比较,研究表明LLM对未来投票行为的预测在很大程度上是失败的,其准确性在不同的国家和语言背景下分布不均,并且需要提示中包含详细的态度信息。研究结果强调了LLM合成样本在公共舆论预测中的有限适用性,并通过调查其背景偏差,有助于理解和减轻LLM开发及其在计算社会科学应用中的不平等。

🔬 方法详解

问题定义:论文旨在解决LLM在预测公众意见时存在的背景偏差问题。现有方法,如人工调查,成本高、效率低。直接使用LLM生成合成样本进行预测,可能因为训练数据和微调过程的偏差,导致预测结果不准确,尤其是在不同文化和语言背景下。

核心思路:论文的核心思路是通过分析LLM在预测2024年欧洲议会选举投票行为时的表现,来评估其背景偏差。具体来说,就是比较LLM预测结果与实际投票结果的差异,并分析这种差异与国家、语言等背景因素之间的关系。这样做的目的是揭示LLM在不同背景下的预测能力差异,从而评估其在公共舆论预测中的适用性。

技术框架:整体流程如下: 1. 收集26000名符合条件的欧洲选民的个人背景信息。 2. 使用这些信息作为提示,输入到三个不同的LLM中。 3. 要求LLM预测每个选民的投票行为。 4. 将LLM的预测结果与实际的投票结果进行比较。 5. 分析预测准确性与国家、语言等背景因素之间的关系。

关键创新:该研究的关键创新在于,它系统地评估了LLM在预测公众意见时存在的背景偏差。以往的研究主要关注LLM的通用能力,而忽略了其在不同文化和语言背景下的表现差异。本文通过实际的选举预测任务,揭示了LLM在不同背景下的预测能力差异,为LLM在社会科学领域的应用提供了重要的参考。

关键设计:研究的关键设计包括: 1. 选择2024年欧洲议会选举作为研究对象,因为这是一个具有广泛代表性的选举,可以涵盖不同的国家和语言背景。 2. 使用三个不同的LLM,以确保研究结果的稳健性。 3. 使用详细的个人背景信息作为提示,以提高LLM的预测准确性。 4. 采用多种评估指标,包括整体准确性、不同国家和语言背景下的准确性等,以全面评估LLM的预测能力。

📊 实验亮点

研究表明,LLM对未来投票行为的预测普遍失败,准确率在不同国家和语言背景下差异显著。只有在提示中包含详细的态度信息时,LLM的预测准确率才能得到一定程度的提升。这些结果表明,LLM合成样本在公共舆论预测中的适用性有限,需要谨慎使用。

🎯 应用场景

该研究成果可应用于评估和改进LLM在社会科学领域的应用,例如舆情分析、政策制定和社会行为预测。通过了解LLM的背景偏差,可以更好地利用LLM进行公众意见分析,并避免因偏差导致的不准确结论。此外,该研究也为LLM的开发提供了指导,有助于开发更加公平和可靠的LLM系统。

📄 摘要(原文)

"Synthetic samples" based on large language models (LLMs) have been argued to serve as efficient alternatives to surveys of humans, assuming that their training data includes information on human attitudes and behavior. However, LLM-synthetic samples might exhibit bias, for example due to training data and fine-tuning processes being unrepresentative of diverse contexts. Such biases risk reinforcing existing biases in research, policymaking, and society. Therefore, researchers need to investigate if and under which conditions LLM-generated synthetic samples can be used for public opinion prediction. In this study, we examine to what extent LLM-based predictions of individual public opinion exhibit context-dependent biases by predicting the results of the 2024 European Parliament elections. Prompting three LLMs with individual-level background information of 26,000 eligible European voters, we ask the LLMs to predict each person's voting behavior. By comparing them to the actual results, we show that LLM-based predictions of future voting behavior largely fail, their accuracy is unequally distributed across national and linguistic contexts, and they require detailed attitudinal information in the prompt. The findings emphasize the limited applicability of LLM-synthetic samples to public opinion prediction. In investigating their contextual biases, this study contributes to the understanding and mitigation of inequalities in the development of LLMs and their applications in computational social science.