Algorithmic Fidelity of Large Language Models in Generating Synthetic German Public Opinions: A Case Study

📄 arXiv: 2412.13169v2 📥 PDF

作者: Bolei Ma, Berk Yoztyurk, Anna-Carolina Haensch, Xinpeng Wang, Markus Herklotz, Frauke Kreuter, Barbara Plank, Matthias Assenmacher

分类: cs.CL

发布日期: 2024-12-17 (更新: 2025-06-02)

备注: ACL 2025


💡 一句话要点

研究大型语言模型在生成德国公众意见中的算法忠实性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 公众意见生成 算法忠实性 社会文化背景 政治偏见 数据驱动研究

📋 核心要点

  1. 现有方法在生成公众意见时,难以准确反映社会文化背景和细微差异,存在算法忠实性不足的问题。
  2. 本研究通过使用开放式调查数据,结合人口特征,促使不同LLMs生成更具代表性的合成公众意见。
  3. 实验结果表明,Llama在代表德国子群体方面表现最佳,尤其在意见多样性较低的情况下,且对左翼政党的支持者表现更佳。

📝 摘要(中文)

在近期研究中,大型语言模型(LLMs)越来越多地用于调查公众意见。本研究探讨了LLMs的算法忠实性,即复制人类参与者的社会文化背景和细微意见的能力。通过使用德国纵向选举研究(GLES)的开放式调查数据,我们促使不同的LLMs生成反映德国子群体的合成公众意见,并将人口特征纳入角色提示中。结果显示,Llama在代表子群体方面表现优于其他LLMs,尤其是在这些群体内部意见多样性较低时。此外,LLM对左翼政党的支持者(如绿党和左翼党)的表现优于其他政党,而与右翼政党AfD的匹配度最低。提示中具体变量的包含或排除也会显著影响模型的预测。这些发现强调了调整LLMs以更有效地建模多样化公众意见的重要性,同时减少政治偏见并增强代表性的鲁棒性。

🔬 方法详解

问题定义:本研究旨在解决大型语言模型在生成公众意见时的算法忠实性问题,现有方法在捕捉社会文化背景和细微意见方面存在不足。

核心思路:通过使用德国纵向选举研究的数据,结合人口特征设计角色提示,以促使LLMs生成更具代表性的合成意见,从而提高模型的算法忠实性。

技术框架:研究采用了开放式调查数据,设计了不同的角色提示,分别应用于多种LLMs进行合成意见生成,比较其在不同子群体中的表现。

关键创新:本研究的创新点在于通过人口特征的引入,提升了LLMs在生成公众意见时的代表性和准确性,尤其是在意见多样性较低的群体中。

关键设计:在提示设计中,研究考虑了不同人口特征的变量,分析其对模型预测的影响,确保生成的意见能够更好地反映真实的公众意见。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果显示,Llama在生成合成公众意见时表现优于其他LLMs,尤其是在意见多样性较低的群体中,支持左翼政党的意见生成准确性更高,与右翼政党AfD的匹配度最低。这些结果强调了模型设计中人口特征的重要性。

🎯 应用场景

该研究的潜在应用领域包括社会科学研究、市场调查和政治分析等。通过提高大型语言模型在生成公众意见时的准确性和代表性,可以为政策制定、舆情监测和社会调查提供更可靠的工具,进而影响决策过程和社会治理。未来,该方法可能在多样化公众意见建模中发挥更大作用。

📄 摘要(原文)

In recent research, large language models (LLMs) have been increasingly used to investigate public opinions. This study investigates the algorithmic fidelity of LLMs, i.e., the ability to replicate the socio-cultural context and nuanced opinions of human participants. Using open-ended survey data from the German Longitudinal Election Studies (GLES), we prompt different LLMs to generate synthetic public opinions reflective of German subpopulations by incorporating demographic features into the persona prompts. Our results show that Llama performs better than other LLMs at representing subpopulations, particularly when there is lower opinion diversity within those groups. Our findings further reveal that the LLM performs better for supporters of left-leaning parties like The Greens and The Left compared to other parties, and matches the least with the right-party AfD. Additionally, the inclusion or exclusion of specific variables in the prompts can significantly impact the models' predictions. These findings underscore the importance of aligning LLMs to more effectively model diverse public opinions while minimizing political biases and enhancing robustness in representativeness.