Finetuning LLMs for Human Behavior Prediction in Social Science Experiments
作者: Akaash Kolluri, Shengguang Wu, Joon Sung Park, Michael S. Bernstein
分类: cs.LG, cs.CY
发布日期: 2025-09-06 (更新: 2025-11-05)
备注: 16 pages, 5 figures
期刊: Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing, pages 30084-30099
💡 一句话要点
通过微调LLM,Socrates在社会科学实验中实现更精准的人类行为预测
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 社会科学 人类行为预测 微调 实验模拟
📋 核心要点
- 现有方法难以准确模拟社会科学实验中复杂的人类行为,限制了实验假设的有效筛选。
- 通过在包含大量社会科学实验数据的SocSci210数据集上微调LLM,Socrates模型能够学习人类行为模式。
- 实验表明,Socrates模型在预测人类行为方面显著优于现有模型,并有效降低了人口统计偏差。
📝 摘要(中文)
本文探讨了利用大型语言模型(LLM)模拟社会科学实验结果的可能性。研究表明,直接在过去实验的个体层面响应数据上微调LLM,能够显著提高模拟的准确性。作者构建了一个名为SocSci210的数据集,该数据集包含来自210个开源社会科学实验中400,491名参与者的290万个响应。通过微调,模型实现了多层次的泛化。在完全未见过的研究中,最强的模型Socrates-Qwen-14B相对于其基础模型(Qwen2.5-14B),在不同条件下对各种结果问题的预测与人类响应分布的对齐程度提高了26%,超过了GPT-4o 13%。在研究的条件子集上进行微调后,对新的未见条件的泛化能力尤为强大,提高了71%。由于SocSci210包含丰富的统计信息,通过微调,人口统计均等性差异(一种偏差度量)降低了10.6%。研究结果表明,对特定主题的丰富数据集进行微调,可以为实验假设筛选提供更准确的模拟。
🔬 方法详解
问题定义:论文旨在解决社会科学实验中人类行为预测不准确的问题。现有方法,如直接使用通用LLM,无法充分捕捉特定实验场景下人类行为的细微差别,导致模拟结果与真实情况存在偏差。这阻碍了研究人员利用模拟结果进行有效的实验假设筛选和验证。
核心思路:论文的核心思路是利用微调(fine-tuning)技术,使LLM能够学习并适应特定社会科学实验数据集中的人类行为模式。通过在包含大量实验数据的SocSci210数据集上进行微调,模型能够更好地理解实验情境,从而更准确地预测人类行为。
技术框架:整体框架包括以下几个主要步骤:1) 构建SocSci210数据集,该数据集包含来自多个社会科学实验的个体响应数据和人口统计信息;2) 选择预训练的LLM作为基础模型,例如Qwen2.5-14B;3) 在SocSci210数据集上对基础模型进行微调,得到Socrates模型;4) 在不同的实验场景下评估Socrates模型的预测准确性和泛化能力,并与基线模型(如GPT-4o)进行比较。
关键创新:论文的关键创新在于:1) 构建了大规模的SocSci210数据集,为LLM的微调提供了丰富的数据资源;2) 证明了通过在特定领域的实验数据上微调LLM,可以显著提高人类行为预测的准确性;3) 探索了模型在不同泛化场景下的性能,包括对未见过的研究和未见过的条件的泛化。
关键设计:论文中关键的设计包括:1) SocSci210数据集的构建方式,确保数据覆盖了多个社会科学领域和不同的人口统计群体;2) 微调过程中使用的损失函数,旨在最小化模型预测与真实人类响应之间的差异;3) 实验评估方案,包括对预测准确性、泛化能力和偏差的评估指标。
🖼️ 关键图片
📊 实验亮点
Socrates-Qwen-14B模型在未见过的研究中,预测与人类响应分布的对齐程度比其基础模型Qwen2.5-14B提高了26%,超过了GPT-4o 13%。在研究的条件子集上进行微调后,对新的未见条件的泛化能力提高了71%。此外,通过微调,人口统计均等性差异降低了10.6%,表明该方法在减少偏差方面也具有潜力。
🎯 应用场景
该研究成果可应用于社会科学研究的多个领域,例如实验设计优化、政策效果预测、以及行为干预方案评估。通过更准确地模拟人类行为,研究人员可以更有效地筛选实验假设,预测政策影响,并设计更有效的干预措施。未来,该方法有望扩展到其他需要理解和预测人类行为的领域,如市场营销、公共卫生和教育。
📄 摘要(原文)
Large language models (LLMs) offer a powerful opportunity to simulate the results of social science experiments. In this work, we demonstrate that finetuning LLMs directly on individual-level responses from past experiments meaningfully improves the accuracy of such simulations across diverse social science domains. We construct SocSci210 via an automatic pipeline, a dataset comprising 2.9 million responses from 400,491 participants in 210 open-source social science experiments. Through finetuning, we achieve multiple levels of generalization. In completely unseen studies, our strongest model, Socrates-Qwen-14B, produces predictions that are 26% more aligned with distributions of human responses to diverse outcome questions under varying conditions relative to its base model (Qwen2.5-14B), outperforming GPT-4o by 13%. By finetuning on a subset of conditions in a study, generalization to new unseen conditions is particularly robust, improving by 71%. Since SocSci210 contains rich demographic information, we reduce demographic parity difference, a measure of bias, by 10.6% through finetuning. Because social sciences routinely generate rich, topic-specific datasets, our findings indicate that finetuning on such data could enable more accurate simulations for experimental hypothesis screening. We release our data, models and finetuning code at stanfordhci.github.io/socrates.