Survey Response Generation: Generating Closed-Ended Survey Responses In-Silico with Large Language Models
作者: Georg Ahnert, Anna-Carolina Haensch, Barbara Plank, Markus Strohmaier
分类: cs.CL, cs.CY
发布日期: 2025-10-13
💡 一句话要点
系统性研究不同方法对LLM生成封闭式调查问卷的影响,并提出实用建议。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 调查问卷生成 封闭式问卷 模拟实验 对齐度
📋 核心要点
- 现有方法在利用LLM生成封闭式调查问卷回复时,缺乏统一标准,不同方法效果差异大。
- 该研究系统性地评估了多种调查问卷生成方法对LLM生成结果的影响,着重关注对齐度。
- 实验结果表明,限制性生成方法表现最佳,且推理输出不一定能提升对齐度,为实际应用提供指导。
📝 摘要(中文)
本文系统性地研究了各种调查问卷生成方法对预测调查问卷结果的影响,尤其关注使用大型语言模型(LLM)生成封闭式调查问卷。尽管LLM通常被训练用于生成开放式文本,但许多人类调查问卷的模拟研究侧重于生成封闭式回答。之前的研究使用了多种方法,但尚未形成标准实践。本文通过8种调查问卷生成方法、4种政治态度调查和10个不同规模的语言模型,模拟生成了3200万份调查问卷回复,并对结果进行了分析。研究发现,不同生成方法在个体层面和子群体层面的对齐度上存在显著差异。结果表明,限制性生成方法总体表现最佳,并且推理输出并不总能提高对齐度。这项工作强调了调查问卷生成方法对模拟调查问卷结果的重大影响,并为调查问卷生成方法的应用提出了实用建议。
🔬 方法详解
问题定义:论文旨在解决如何利用大型语言模型(LLM)有效地生成封闭式调查问卷回复的问题。现有方法主要痛点在于缺乏统一的标准实践,导致不同生成方法的效果差异显著,难以保证生成结果的可靠性和一致性。此外,如何提升生成结果与真实人类回答的对齐度也是一个关键挑战。
核心思路:论文的核心思路是通过系统性地比较和分析多种调查问卷生成方法,评估它们在生成封闭式调查问卷回复时的表现。通过大规模的模拟实验,考察不同方法在个体层面和子群体层面的对齐度,从而找出最佳实践,并为实际应用提供指导。论文特别关注限制性生成方法和推理输出对生成结果的影响。
技术框架:该研究的技术框架主要包括以下几个步骤:1)选择多种调查问卷生成方法;2)选择多个政治态度调查问卷作为测试数据集;3)选择不同规模的语言模型;4)使用不同的生成方法和语言模型,模拟生成大量的调查问卷回复;5)对生成结果进行分析,评估不同方法在个体层面和子群体层面的对齐度;6)比较不同方法的表现,找出最佳实践,并提出实用建议。
关键创新:该研究的关键创新在于对多种调查问卷生成方法进行了系统性的比较和分析,并评估了它们在生成封闭式调查问卷回复时的表现。之前的研究通常只关注单一的生成方法,而该研究则全面地考察了多种方法,从而能够更准确地评估不同方法的优劣。此外,该研究还特别关注了限制性生成方法和推理输出对生成结果的影响,从而为实际应用提供了更具体的指导。
关键设计:研究中涉及的关键设计包括:1)选择了8种不同的调查问卷生成方法,涵盖了不同的生成策略;2)选择了4种不同的政治态度调查问卷,以保证实验结果的泛化性;3)选择了10个不同规模的语言模型,以考察模型规模对生成结果的影响;4)使用了大规模的模拟实验,生成了3200万份调查问卷回复,以保证实验结果的统计显著性;5)使用了多种评估指标,包括个体层面和子群体层面的对齐度,以全面地评估不同方法的表现。
🖼️ 关键图片
📊 实验亮点
研究结果表明,限制性生成方法在生成封闭式调查问卷回复时表现最佳,能够更好地与真实人类回答对齐。此外,研究还发现推理输出并不总能提高对齐度,这挑战了以往的认知。通过对3200万份模拟调查问卷回复的分析,该研究为LLM在调查问卷生成领域的应用提供了重要的实践指导。
🎯 应用场景
该研究成果可应用于社会科学、政治学、市场调研等领域,通过模拟生成调查问卷回复,辅助研究人员进行数据分析和预测。例如,可以用于预测选举结果、评估政策影响、了解消费者偏好等。此外,该研究还可以为LLM在调查问卷生成领域的应用提供指导,促进相关技术的发展。
📄 摘要(原文)
Many in-silico simulations of human survey responses with large language models (LLMs) focus on generating closed-ended survey responses, whereas LLMs are typically trained to generate open-ended text instead. Previous research has used a diverse range of methods for generating closed-ended survey responses with LLMs, and a standard practice remains to be identified. In this paper, we systematically investigate the impact that various Survey Response Generation Methods have on predicted survey responses. We present the results of 32 mio. simulated survey responses across 8 Survey Response Generation Methods, 4 political attitude surveys, and 10 open-weight language models. We find significant differences between the Survey Response Generation Methods in both individual-level and subpopulation-level alignment. Our results show that Restricted Generation Methods perform best overall, and that reasoning output does not consistently improve alignment. Our work underlines the significant impact that Survey Response Generation Methods have on simulated survey responses, and we develop practical recommendations on the application of Survey Response Generation Methods.