Can LLMs Simulate Human Behavioral Variability? A Case Study in the Phonemic Fluency Task

📄 arXiv: 2505.16164 📥 PDF

作者: Mengyang Qiu, Zoe Brisebois, Siena Sun

分类: cs.CL

发布日期: 2026-02-28


💡 一句话要点

评估大型语言模型在音素流畅性任务中模拟人类行为变异性的能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 行为模拟 音素流畅性任务 认知科学 人类变异性

📋 核心要点

  1. 现有认知任务研究中,使用LLM替代人类参与者面临模拟人类行为变异性的挑战。
  2. 该研究通过音素流畅性任务,对比LLM与人类在生成单词时的差异,评估LLM模拟人类行为的能力。
  3. 实验结果表明,LLM在平均水平和词汇偏好上接近人类,但在变异性和检索结构上存在显著差异。

📝 摘要(中文)

大型语言模型(LLMs)越来越多地被用作认知任务中人类参与者的替代品,但它们模拟人类行为变异性的能力仍不清楚。本研究考察了LLMs是否能近似音素流畅性任务中的个体差异,该任务要求参与者生成以目标字母开头的单词。我们评估了来自主要闭源和开源提供商的34个不同模型,共45种配置,并将输出与106名人类参与者的反应进行了比较。虽然一些模型,特别是Claude 3.7 Sonnet,近似了人类的平均水平和词汇偏好,但没有一个模型能重现人类变异性的范围。LLM的输出始终缺乏多样性,更新的模型和启用思维模式的模型通常会减少而不是增加变异性。网络分析进一步揭示了人类和最像人类的模型在检索结构上的根本差异。结合来自不同模型的输出的集成模拟也未能恢复人类水平的多样性,这可能是由于模型之间的高词汇重叠。这些结果突显了使用LLMs模拟人类认知和行为的关键局限性。

🔬 方法详解

问题定义:本研究旨在评估大型语言模型(LLMs)在模拟人类认知行为变异性方面的能力,具体场景是音素流畅性任务。现有方法,即直接使用LLM生成单词,无法充分捕捉人类在认知任务中的个体差异和行为变异性,导致模拟结果与真实人类行为存在偏差。

核心思路:核心思路是通过对比LLM和人类在音素流畅性任务中的表现,量化LLM在模拟人类行为变异性方面的能力。具体来说,分析LLM生成的单词列表与人类生成的单词列表在多样性、词汇偏好和检索结构上的差异,从而评估LLM的局限性。

技术框架:研究的技术框架包括以下几个主要步骤:1) 选择音素流畅性任务作为研究对象;2) 选取34个不同的LLM模型,共45种配置,包括闭源和开源模型;3) 收集106名人类参与者在音素流畅性任务中的数据;4) 使用相同的提示词,让LLM生成单词列表;5) 对比LLM和人类生成的单词列表,从多样性、词汇偏好和检索结构三个方面进行量化分析;6) 使用网络分析方法,比较LLM和人类的检索结构;7) 尝试通过集成多个LLM的输出来提高多样性。

关键创新:本研究的关键创新在于系统性地评估了大量LLM在模拟人类行为变异性方面的能力,并揭示了LLM在多样性和检索结构方面与人类的根本差异。此外,研究还尝试了集成多个LLM的输出来提高多样性,但未能成功。

关键设计:在实验设计方面,研究使用了标准的音素流畅性任务,要求参与者在规定时间内生成以特定字母开头的单词。在模型评估方面,研究使用了多种指标来量化LLM和人类在多样性、词汇偏好和检索结构上的差异,包括单词数量、词汇多样性、词汇重叠率和网络分析指标。没有特别提及损失函数或网络结构,因为研究主要关注现有LLM的输出分析。

🖼️ 关键图片

fig_0

📊 实验亮点

实验结果表明,虽然一些LLM(如Claude 3.7 Sonnet)在平均水平和词汇偏好上接近人类,但没有一个模型能重现人类变异性的范围。LLM的输出始终缺乏多样性,且更新的模型和启用思维模式的模型通常会减少而不是增加变异性。集成多个LLM的输出也未能恢复人类水平的多样性。网络分析揭示了人类和最像人类的模型在检索结构上的根本差异。

🎯 应用场景

该研究结果对于评估LLM在认知科学、心理学和人机交互等领域的应用潜力具有重要意义。它可以帮助研究人员更好地理解LLM的局限性,并指导LLM在模拟人类行为方面的改进。此外,该研究还可以应用于开发更逼真的人工智能助手和虚拟角色,以及提高人机交互的自然性和流畅性。

📄 摘要(原文)

Large language models (LLMs) are increasingly explored as substitutes for human participants in cognitive tasks, but their ability to simulate human behavioral variability remains unclear. This study examines whether LLMs can approximate individual differences in the phonemic fluency task, where participants generate words beginning with a target letter. We evaluated 34 distinct models across 45 configurations from major closed-source and open-source providers, and compared outputs to responses from 106 human participants. While some models, especially Claude 3.7 Sonnet, approximated human averages and lexical preferences, none reproduced the scope of human variability. LLM outputs were consistently less diverse, with newer models and thinking-enabled modes often reducing rather than increasing variability. Network analysis further revealed fundamental differences in retrieval structure between humans and the most human-like model. Ensemble simulations combining outputs from diverse models also failed to recover human-level diversity, likely due to high vocabulary overlap across models. These results highlight key limitations in using LLMs to simulate human cognition and behavior.