Evaluating the Use of Large Language Models as Synthetic Social Agents in Social Science Research

📄 arXiv: 2509.26080v2 📥 PDF

作者: Emma Rose Madden

分类: cs.AI, stat.AP

发布日期: 2025-09-30 (更新: 2025-10-28)


💡 一句话要点

评估大型语言模型作为社会科学研究中合成社会代理的应用及注意事项

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社会科学研究 合成代理 模式匹配 可靠性验证 子群校准 预测插值

📋 核心要点

  1. 现有社会科学研究中,直接使用LLM输出进行推断存在风险,可能导致错误的结论。
  2. 论文建议将LLM视为高容量的模式匹配器,用于在特定条件下进行预测插值,而非替代概率推理。
  3. 论文提出了独立抽样、人工基线、可靠性验证和子群校准等实用方法,以提高LLM使用的可靠性。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被用作社会科学中的合成代理,其应用范围从增强调查回复到驱动多智能体模拟。本文概述了解释LLM输出时应采取的注意事项,并为社会科学提出了一个务实的重新框架,其中LLM被用作高容量的模式匹配器,用于在明确的范围条件下进行准预测插值,而不是作为概率推理的替代品。本文介绍了一些实用的保障措施,如独立抽样、预先注册的人工基线、可靠性感知验证和子群校准,以便研究人员可以进行有用的原型设计和预测,同时避免类别错误。

🔬 方法详解

问题定义:社会科学研究越来越多地依赖大型语言模型(LLMs)作为合成社会代理,例如在调查问卷增强和多智能体模拟中。然而,直接将LLM的输出作为真实社会行为的反映进行解释存在风险,因为LLM本质上是模式匹配器,而非概率推理引擎。现有方法缺乏对LLM输出可靠性的有效评估和保障机制,可能导致研究结论的偏差。

核心思路:论文的核心思路是将LLM重新定位为一种高容量的模式匹配工具,用于在明确定义的范围条件下进行准预测插值。这意味着研究人员应该明确LLM的适用范围,并将其输出视为一种预测,而非直接的事实陈述。通过这种方式,可以避免将LLM误用为概率推理的替代品。

技术框架:论文没有提出一个具体的架构或流程,而是提供了一系列实用的保障措施,旨在提高LLM在社会科学研究中的应用可靠性。这些保障措施包括:独立抽样(确保LLM输出的多样性)、预先注册的人工基线(用于比较LLM与人类的表现)、可靠性感知验证(评估LLM输出的一致性和稳定性)和子群校准(确保LLM在不同人群中的表现一致)。

关键创新:论文的关键创新在于对LLM在社会科学研究中的定位进行了重新思考,强调了其作为模式匹配器的本质,并提出了相应的应用原则和保障措施。这种重新定位有助于研究人员更谨慎、更有效地使用LLM,避免潜在的误用和错误结论。

关键设计:论文提出的关键设计在于一系列实用的保障措施,这些措施旨在提高LLM输出的可靠性和可信度。例如,独立抽样可以通过多次运行LLM并分析其输出的分布来评估其稳定性;预先注册的人工基线可以提供一个比较标准,用于评估LLM的表现是否优于或劣于人类;可靠性感知验证可以通过计算LLM输出的一致性指标来评估其稳定性;子群校准可以通过分析LLM在不同人群中的表现差异来评估其公平性。

📊 实验亮点

论文强调了在社会科学研究中使用LLM时需要注意的潜在风险,并提出了实用的保障措施,例如独立抽样、预先注册的人工基线、可靠性感知验证和子群校准。这些措施旨在提高LLM输出的可靠性和可信度,从而避免研究结论的偏差。虽然论文没有提供具体的性能数据,但其提出的方法为研究人员提供了一个更严谨、更可靠的LLM应用框架。

🎯 应用场景

该研究成果可应用于社会科学研究的多个领域,例如民意调查、行为经济学、政治学等。通过采用论文提出的方法和保障措施,研究人员可以更可靠地利用LLM进行数据增强、模型构建和预测分析,从而提高研究的质量和可信度。此外,该研究也为LLM在社会科学领域的伦理应用提供了指导。

📄 摘要(原文)

Large Language Models (LLMs) are being increasingly used as synthetic agents in social science, in applications ranging from augmenting survey responses to powering multi-agent simulations. This paper outlines cautions that should be taken when interpreting LLM outputs and proposes a pragmatic reframing for the social sciences in which LLMs are used as high-capacity pattern matchers for quasi-predictive interpolation under explicit scope conditions and not as substitutes for probabilistic inference. Practical guardrails such as independent draws, preregistered human baselines, reliability-aware validation, and subgroup calibration, are introduced so that researchers may engage in useful prototyping and forecasting while avoiding category errors.