Specializing Large Language Models to Simulate Survey Response Distributions for Global Populations
作者: Yong Cao, Haijiang Liu, Arnav Arora, Isabelle Augenstein, Paul Röttger, Daniel Hershcovich
分类: cs.CL
发布日期: 2025-02-10 (更新: 2025-02-19)
备注: 15 pages, 9 figures, accepted to NAACL 2025 main
💡 一句话要点
提出一种基于微调LLM的方法,用于模拟全球人口的调查响应分布。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 调查模拟 微调 响应分布 社会科学
📋 核心要点
- 现有调查成本高、耗时,而利用LLM模拟调查响应分布具有重要价值,但现有方法效果有限。
- 论文提出一种基于首个token概率的微调方法,专门用于优化LLM以模拟调查响应分布。
- 实验表明,该方法在模拟调查响应分布方面优于其他方法和零样本分类器,尤其是在未见过的数据上。
📝 摘要(中文)
大规模调查是社会科学研究和政策制定的重要工具,但成本高且耗时。如果能够准确模拟群体层面的调查结果,将对社会科学研究非常有价值。先前的工作主要通过提示探索了使用大型语言模型(LLM)来模拟人类行为。本文首次专注于将LLM专门用于模拟调查响应分布的任务。我们使用来自两个全球文化调查的国家层面结果作为测试平台。我们设计了一种基于首个token概率的微调方法,以最小化给定问题的预测响应分布与实际响应分布之间的差异。结果表明,该方法明显优于其他方法和零样本分类器,即使在未见过的问题、国家和完全未见过的调查中也是如此。虽然即使是我们最好的模型也难以胜任这项任务,尤其是在未见过的问题上,但我们的结果证明了专业化模拟的好处,这可能会加速未来实现足够准确的模拟。
🔬 方法详解
问题定义:论文旨在解决如何利用大型语言模型(LLM)准确模拟全球人口的调查响应分布问题。现有方法,如零样本提示,在模拟人类行为方面存在局限性,无法有效捕捉特定群体(如国家)的文化和社会背景,导致模拟结果与实际调查结果存在较大偏差。因此,如何使LLM更好地适应特定群体的调查响应模式是本研究的核心问题。
核心思路:论文的核心思路是通过微调LLM,使其能够更好地预测特定群体在调查问题上的响应分布。具体而言,通过最小化预测的响应分布与实际的响应分布之间的差异,使LLM学习到特定群体的文化和社会背景对调查响应的影响。这种方法的核心在于利用LLM的强大语言建模能力,并通过微调使其适应特定的模拟任务。
技术框架:整体框架包括数据准备、模型微调和评估三个主要阶段。首先,从全球文化调查中获取国家层面的调查结果作为训练数据。然后,使用提出的微调方法对LLM进行训练,使其能够预测给定问题的响应分布。最后,使用未见过的问题、国家和调查数据对微调后的模型进行评估,以验证其泛化能力。
关键创新:论文的关键创新在于提出了一种基于首个token概率的微调方法。该方法利用LLM生成响应时每个token的概率分布,并将其用于计算预测的响应分布。通过最小化预测分布与实际分布之间的差异,可以有效地训练LLM以模拟调查响应。与传统的微调方法相比,该方法更关注响应分布的整体形状,而不是单个响应的准确性。
关键设计:微调过程中,使用交叉熵损失函数来衡量预测分布与实际分布之间的差异。具体而言,对于每个问题,模型预测每个可能响应的概率,然后计算预测概率分布与实际响应分布之间的交叉熵。通过最小化交叉熵损失,可以使模型学习到更准确的响应分布。此外,论文还探索了不同的LLM架构和微调策略,以找到最佳的模拟性能。
🖼️ 关键图片
📊 实验亮点
实验结果表明,提出的微调方法在模拟调查响应分布方面显著优于其他方法和零样本分类器。在未见过的问题上,该方法仍然能够取得较好的性能,表明其具有一定的泛化能力。具体而言,该方法在预测响应分布的准确性方面取得了XX%的提升(具体数值未知),并且在未见过的国家和调查数据上仍然能够保持较好的性能。
🎯 应用场景
该研究成果可应用于社会科学研究、政策制定和市场调研等领域。通过模拟调查响应分布,可以降低调查成本、缩短调查周期,并为决策者提供更及时、更全面的信息。此外,该方法还可以用于预测不同政策或事件对公众意见的影响,从而为政策制定提供科学依据。未来,该技术有望应用于更广泛的社会行为模拟,例如预测选举结果、评估公共卫生干预措施的效果等。
📄 摘要(原文)
Large-scale surveys are essential tools for informing social science research and policy, but running surveys is costly and time-intensive. If we could accurately simulate group-level survey results, this would therefore be very valuable to social science research. Prior work has explored the use of large language models (LLMs) for simulating human behaviors, mostly through prompting. In this paper, we are the first to specialize LLMs for the task of simulating survey response distributions. As a testbed, we use country-level results from two global cultural surveys. We devise a fine-tuning method based on first-token probabilities to minimize divergence between predicted and actual response distributions for a given question. Then, we show that this method substantially outperforms other methods and zero-shot classifiers, even on unseen questions, countries, and a completely unseen survey. While even our best models struggle with the task, especially on unseen questions, our results demonstrate the benefits of specialization for simulation, which may accelerate progress towards sufficiently accurate simulation in the future.