Emulating Public Opinion: A Proof-of-Concept of AI-Generated Synthetic Survey Responses for the Chilean Case
作者: Bastián González-Bustamante, Nando Verelst, Carla Cisternas
分类: cs.CL, cs.AI
发布日期: 2025-09-11
备注: Working paper: 18 pages, 4 tables, 2 figures
期刊: Empiria Lab Method Series (2025)
💡 一句话要点
利用大型语言模型生成合成调查回复,模拟智利公众意见,验证其可行性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 合成数据 调查研究 公众意见 社会科学
📋 核心要点
- 现有调查研究面临测量误差和代表性不足的挑战,难以准确捕捉公众意见。
- 利用大型语言模型生成合成调查回复,模拟人类回答,探索其在调查研究中的应用潜力。
- 实验表明,LLM在特定问题上表现出色,但在捕捉公众意见的细微差别方面仍有挑战。
📝 摘要(中文)
大型语言模型(LLMs)通过使用合成受访者来模拟人类的回答和行为,为调查研究中的方法论和应用创新提供了有希望的途径,有可能减轻测量和代表性误差。然而,LLM恢复聚合项目分布的程度仍然不确定,下游应用可能会重现从训练数据中继承的社会刻板印象和偏见。我们评估了LLM生成的合成调查回复相对于来自智利公众意见概率调查的真实人类回复的可靠性。具体来说,我们对128个提示-模型-问题三元组进行基准测试,生成189,696个合成配置文件,并在128个问题-子样本对中汇集性能指标(即,准确率、精确率、召回率和F1分数)进行元分析,以测试沿关键社会人口维度存在的偏差。评估范围涵盖OpenAI的GPT系列和o系列推理模型,以及Llama和Qwen检查点。结果表明,合成回复在信任项目上表现出色(F1分数和准确率>0.90),GPT-4o、GPT-4o-mini和Llama 4 Maverick在此任务上表现相当,且合成-人类对齐在45-59岁的受访者中最高。总体而言,基于LLM的合成样本可以近似概率样本的回复,但项目层面的异质性很大。捕捉公众意见的全部细微差别仍然具有挑战性,需要仔细校准和额外的分布测试,以确保算法的保真度并减少误差。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLMs)生成合成调查回复的可靠性,并将其与真实人类回复进行比较。现有调查研究存在测量误差和代表性不足的问题,而利用LLM生成合成数据可能是一种潜在的解决方案。然而,LLM是否能够准确地模拟人类的回答分布,以及是否存在社会偏见等问题仍未解决。
核心思路:论文的核心思路是使用LLM生成大量的合成调查回复,然后将其与来自智利公众意见概率调查的真实人类回复进行比较,评估LLM的性能。通过对不同模型、不同问题和不同人口统计学群体的结果进行分析,可以了解LLM在模拟公众意见方面的优势和局限性。
技术框架:该研究的技术框架主要包括以下几个步骤:1) 选择合适的LLM模型,包括OpenAI的GPT系列、Llama和Qwen等;2) 设计合适的提示(prompts),用于引导LLM生成合成回复;3) 选择智利公众意见调查中的问题作为评估对象;4) 生成大量的合成调查回复;5) 将合成回复与真实人类回复进行比较,计算准确率、精确率、召回率和F1分数等指标;6) 对不同模型、不同问题和不同人口统计学群体的结果进行元分析,评估LLM的性能和偏差。
关键创新:该研究的关键创新在于系统地评估了LLM在生成合成调查回复方面的能力,并将其与真实人类回复进行了比较。通过对不同模型、不同问题和不同人口统计学群体的结果进行分析,揭示了LLM在模拟公众意见方面的优势和局限性。此外,该研究还探讨了LLM可能存在的社会偏见问题,并提出了相应的解决方案。
关键设计:该研究的关键设计包括:1) 选择了128个提示-模型-问题三元组进行基准测试;2) 生成了189,696个合成配置文件;3) 使用准确率、精确率、召回率和F1分数等指标来评估LLM的性能;4) 进行了元分析,以测试沿关键社会人口维度存在的偏差。
🖼️ 关键图片
📊 实验亮点
实验结果表明,合成回复在信任项目上表现出色(F1分数和准确率>0.90)。GPT-4o、GPT-4o-mini和Llama 4 Maverick在此任务上表现相当。合成-人类对齐在45-59岁的受访者中最高。这些结果表明,LLM在模拟某些类型的公众意见方面具有潜力,但仍需进一步改进。
🎯 应用场景
该研究成果可应用于社会科学研究、市场调查、政策制定等领域。通过利用LLM生成合成调查回复,可以降低调查成本、提高调查效率,并减轻测量误差和代表性不足的问题。此外,该研究还可以帮助识别和纠正LLM中存在的社会偏见,从而提高其公平性和可靠性。
📄 摘要(原文)
Large Language Models (LLMs) offer promising avenues for methodological and applied innovations in survey research by using synthetic respondents to emulate human answers and behaviour, potentially mitigating measurement and representation errors. However, the extent to which LLMs recover aggregate item distributions remains uncertain and downstream applications risk reproducing social stereotypes and biases inherited from training data. We evaluate the reliability of LLM-generated synthetic survey responses against ground-truth human responses from a Chilean public opinion probabilistic survey. Specifically, we benchmark 128 prompt-model-question triplets, generating 189,696 synthetic profiles, and pool performance metrics (i.e., accuracy, precision, recall, and F1-score) in a meta-analysis across 128 question-subsample pairs to test for biases along key sociodemographic dimensions. The evaluation spans OpenAI's GPT family and o-series reasoning models, as well as Llama and Qwen checkpoints. Three results stand out. First, synthetic responses achieve excellent performance on trust items (F1-score and accuracy > 0.90). Second, GPT-4o, GPT-4o-mini and Llama 4 Maverick perform comparably on this task. Third, synthetic-human alignment is highest among respondents aged 45-59. Overall, LLM-based synthetic samples approximate responses from a probabilistic sample, though with substantial item-level heterogeneity. Capturing the full nuance of public opinion remains challenging and requires careful calibration and additional distributional tests to ensure algorithmic fidelity and reduce errors.