Can Large Language Models Replace Human Subjects? A Large-Scale Replication of Scenario-Based Experiments in Psychology and Management

📄 arXiv: 2409.00128v3 📥 PDF

作者: Ziyan Cui, Ning Li, Huaikang Zhou

分类: cs.CL, cs.AI, econ.GN

发布日期: 2024-08-29 (更新: 2025-06-20)

备注: 5 figures, 2 tables


💡 一句话要点

利用大语言模型复现心理学实验:优势、局限与伦理考量

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 心理学实验 社会科学 实验复现 效应量 社会敏感性 AI伦理 行为模拟

📋 核心要点

  1. 传统心理学实验耗时耗力,需要大量人类受试者,成本高昂,效率较低。
  2. 利用LLMs模拟人类行为,旨在探索其在心理学实验中的替代潜力,加速研究进程。
  3. 实验结果揭示了LLMs在复现心理学实验中的优势与局限,强调了人类验证的重要性。

📝 摘要(中文)

本文探讨了使用大型语言模型(LLMs)替代人类受试者进行社会科学研究的可行性。研究者利用GPT-4、Claude 3.5 Sonnet和DeepSeek v3等先进LLMs,大规模复现了来自顶级社会科学期刊的156项心理学实验。结果表明,LLMs在主效应复现方面表现出色(73-81%),交互效应复现效果中等至强(46-63%)。然而,LLMs产生的效应量显著高于人类研究,Fisher Z值约为人类研究的2-3倍。对于涉及种族、性别和伦理等社会敏感话题的研究,LLMs的复现率明显降低。当原始研究报告无效结果时,LLMs却以极高的比例(68-83%)产生显著结果。这可能反映了LLMs数据更干净、噪声更少,但也暗示了效应量高估的潜在风险。研究表明,LLMs在心理学研究中具有潜力,可用于初步测试和快速假设验证,但不能完全取代传统的人类受试者研究,对于复杂社会现象和文化敏感的研究问题,需要更细致的解读和人类验证。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLMs)在多大程度上可以替代人类受试者,用于复现心理学和社会科学实验。现有方法依赖于耗时且昂贵的人类实验,而LLMs的出现为快速、低成本的实验提供了可能性。然而,LLMs是否能准确反映人类行为,以及它们在处理社会敏感问题时的表现,仍然是未知的。

核心思路:核心思路是使用LLMs作为“虚拟受试者”,通过输入与原始实验相同的场景描述和问题,观察LLMs的输出是否与人类受试者的行为模式一致。如果LLMs能够以较高的准确率复现实验结果,则表明它们在一定程度上可以替代人类受试者,从而加速研究进程。

技术框架:整体框架包括以下几个步骤:1)选取156项来自顶级社会科学期刊的心理学实验;2)使用GPT-4、Claude 3.5 Sonnet和DeepSeek v3等LLMs,将实验场景和问题转化为LLMs可以理解的文本输入;3)运行LLMs并记录其输出;4)将LLMs的输出与原始实验结果进行比较,计算复现率和效应量差异;5)分析LLMs在不同类型实验(如涉及社会敏感话题的实验)中的表现。

关键创新:关键创新在于大规模地、系统性地评估了LLMs在复现心理学实验中的能力。以往的研究通常只关注少数几个实验,而本文则涵盖了156项实验,从而提供了更全面的评估结果。此外,本文还特别关注了LLMs在处理社会敏感问题时的表现,以及它们在原始研究报告无效结果时产生显著结果的倾向。

关键设计:研究的关键设计包括:1)选择具有代表性的心理学实验,涵盖不同的研究领域和实验范式;2)使用多个先进的LLMs,以评估不同模型的性能差异;3)采用严格的统计方法,比较LLMs的输出与原始实验结果,包括计算复现率、效应量差异和置信区间;4)对LLMs在不同类型实验中的表现进行细致的分析,以识别其优势和局限。

📊 实验亮点

实验结果表明,LLMs在主效应复现方面表现出色(73-81%),交互效应复现效果中等至强(46-63%)。但LLMs产生的效应量显著高于人类研究,Fisher Z值约为人类研究的2-3倍。对于涉及种族、性别和伦理等社会敏感话题的研究,LLMs的复现率明显降低。当原始研究报告无效结果时,LLMs却以极高的比例(68-83%)产生显著结果。

🎯 应用场景

该研究成果可应用于心理学、社会科学、管理学等领域。LLMs可作为初步测试工具,快速验证假设,辅助实验设计。在资源有限的情况下,LLMs可用于探索性研究,为后续的人类实验提供指导。然而,对于涉及复杂社会现象和文化敏感问题的研究,仍需谨慎使用LLMs,并结合人类实验进行验证。

📄 摘要(原文)

Artificial Intelligence (AI) is increasingly being integrated into scientific research, particularly in the social sciences, where understanding human behavior is critical. Large Language Models (LLMs) have shown promise in replicating human-like responses in various psychological experiments. We conducted a large-scale study replicating 156 psychological experiments from top social science journals using three state-of-the-art LLMs (GPT-4, Claude 3.5 Sonnet, and DeepSeek v3). Our results reveal that while LLMs demonstrate high replication rates for main effects (73-81%) and moderate to strong success with interaction effects (46-63%), They consistently produce larger effect sizes than human studies, with Fisher Z values approximately 2-3 times higher than human studies. Notably, LLMs show significantly lower replication rates for studies involving socially sensitive topics such as race, gender and ethics. When original studies reported null findings, LLMs produced significant results at remarkably high rates (68-83%) - while this could reflect cleaner data with less noise, as evidenced by narrower confidence intervals, it also suggests potential risks of effect size overestimation. Our results demonstrate both the promise and challenges of LLMs in psychological research, offering efficient tools for pilot testing and rapid hypothesis validation while enriching rather than replacing traditional human subject studies, yet requiring more nuanced interpretation and human validation for complex social phenomena and culturally sensitive research questions.