Evaluating the Use of Large Language Models as Synthetic Social Agents in Social Science Research

📄 arXiv: 2509.26080v2 📥 PDF

作者: Emma Rose Madden

分类: cs.AI, stat.AP

发布日期: 2025-09-30 (更新: 2025-10-28)


💡 一句话要点

评估大型语言模型作为社会科学研究中合成社会代理的应用

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社会科学研究 合成代理 模式匹配 可靠性验证 亚组校准 准预测插值

📋 核心要点

  1. 现有社会科学研究中,LLM作为合成代理的应用日益广泛,但对其输出结果的解读需谨慎。
  2. 论文提出将LLM视为高容量模式匹配器,用于明确范围条件下的准预测插值,而非概率推理替代。
  3. 引入独立抽样、人工基线、可靠性验证和亚组校准等保障措施,以促进原型设计和预测,避免类别错误。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被用作社会科学中的合成代理,其应用范围从增强调查回复到驱动多智能体模拟。本文概述了解释LLM输出时应采取的注意事项,并为社会科学提出了一个务实的重新框架,其中LLM被用作高容量的模式匹配器,用于在明确的范围条件下进行准预测插值,而不是作为概率推理的替代品。本文介绍了一些实用的保障措施,如独立抽样、预先注册的人工基线、可靠性感知验证和亚组校准,以便研究人员可以进行有用的原型设计和预测,同时避免类别错误。

🔬 方法详解

问题定义:当前社会科学研究越来越多地使用大型语言模型(LLMs)作为合成社会代理,例如在调查问卷回复增强和多智能体模拟中。然而,直接将LLM的输出结果用于社会科学推断存在风险,因为LLM本质上是模式匹配器,而非概率推理引擎。现有方法缺乏对LLM输出可靠性和适用范围的有效评估和控制。

核心思路:论文的核心思路是将LLM重新定位为一种高容量的模式匹配工具,用于在明确定义的范围条件下进行准预测插值。这意味着研究者需要明确LLM的适用范围,并将其输出视为一种预测,而非直接的因果关系推断。通过这种方式,可以更安全地利用LLM的强大能力,同时避免误用。

技术框架:论文没有提出一个具体的模型架构,而是提供了一套使用LLM进行社会科学研究的指导原则和保障措施。这些措施包括: 1. 独立抽样:多次独立运行LLM,以评估输出的稳定性。 2. 预先注册的人工基线:建立人类表现的基线,用于比较LLM的性能。 3. 可靠性感知验证:评估LLM输出的可靠性,例如通过测量不同运行之间的方差。 4. 亚组校准:确保LLM在不同的亚组中表现一致。

关键创新:论文的关键创新在于对LLM在社会科学研究中的定位进行了重新思考。它强调了LLM作为模式匹配器的本质,并提出了相应的保障措施,以确保其在社会科学研究中的安全和有效使用。这种重新定位避免了将LLM视为“黑盒”的风险,并鼓励研究者更加谨慎地解释其输出。

关键设计:论文没有涉及具体的参数设置或网络结构。其关键设计在于提出了一系列实用的保障措施,这些措施旨在提高LLM输出的可靠性和可解释性。例如,独立抽样可以帮助研究者评估LLM输出的稳定性,而人工基线可以提供一个参考点,用于评估LLM的性能。

📊 实验亮点

论文强调了在社会科学研究中使用LLM时需要注意的潜在陷阱,并提供了一系列实用的保障措施。这些措施包括独立抽样、预先注册的人工基线、可靠性感知验证和亚组校准。通过应用这些措施,研究人员可以更安全地利用LLM的强大能力,同时避免误用和过度解读。

🎯 应用场景

该研究成果可应用于社会科学研究的多个领域,例如民意调查、政策模拟和行为预测。通过将LLM作为一种辅助工具,研究人员可以更高效地探索复杂的社会现象,并为决策提供更全面的信息。未来的研究可以进一步探索如何将这些保障措施集成到现有的社会科学研究流程中,并开发更高级的评估指标。

📄 摘要(原文)

Large Language Models (LLMs) are being increasingly used as synthetic agents in social science, in applications ranging from augmenting survey responses to powering multi-agent simulations. This paper outlines cautions that should be taken when interpreting LLM outputs and proposes a pragmatic reframing for the social sciences in which LLMs are used as high-capacity pattern matchers for quasi-predictive interpolation under explicit scope conditions and not as substitutes for probabilistic inference. Practical guardrails such as independent draws, preregistered human baselines, reliability-aware validation, and subgroup calibration, are introduced so that researchers may engage in useful prototyping and forecasting while avoiding category errors.