Psychometric Comparability of LLM-Based Digital Twins

📄 arXiv: 2601.14264v1 📥 PDF

作者: Yufei Zhang, Zhihao Ma

分类: cs.CY, cs.AI, cs.CL, cs.HC

发布日期: 2025-12-22

备注: Also available as a preprint on OSF Preprints https://osf.io/preprints/psyarxiv/965yg_v1


💡 一句话要点

评估LLM数字孪生体的心理测量可比性,揭示其在模拟人类认知和行为方面的局限性与优势。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数字孪生体 心理测量学 结构效度 认知建模

📋 核心要点

  1. 现有研究缺乏对LLM数字孪生体与人类在心理测量学上可比性的系统评估,阻碍了其在社会科学研究中的可靠应用。
  2. 该研究提出一个结构效度框架,从结构表征和nomological net两个维度,全面评估LLM数字孪生体在不同任务中的表现。
  3. 实验结果表明,富含特征的LLM数字孪生体在群体层面表现良好,但在个体层面和特定任务中与人类存在显著差异。

📝 摘要(中文)

大型语言模型(LLMs)被用作“数字孪生体”来替代人类受试者,但它们与人类的心理测量可比性尚不确定。本文提出了一个涵盖结构表征和nomological net的结构效度框架,通过跨模型、任务进行基准测试,并将数字孪生体与人类黄金标准进行比较,同时测试个体特定输入如何影响性能。研究表明,数字孪生体在群体层面实现了较高的准确性,并在参与者内部表现出较强的profile相关性,但项目层面的相关性有所减弱。在词语联想测试中,基于LLM的网络表现出与人类相似的小世界结构和符合理论的社群,但在词汇和局部结构上存在差异。在决策和情境化任务中,数字孪生体对启发式偏差的重现程度较低,表现出规范理性、压缩方差和对时间信息的有限敏感性。富含特征的数字孪生体改善了大五人格预测,但其人格网络仅表现出构型不变性,未达到度量不变性。在更实际的自由文本任务中,富含特征的数字孪生体更好地匹配了人类叙事,但语言差异仍然存在。总之,这些结果表明,富含特征的条件化增强了有效性,但并未解决心理测量可比性方面的系统性差异。未来的工作应优先考虑划定数字孪生体的有效边界,确定它们作为人类认知和行为的可靠代理发挥作用的精确情境。

🔬 方法详解

问题定义:论文旨在评估基于大型语言模型(LLM)的数字孪生体在多大程度上可以作为人类受试者的替代品,特别是在心理测量学方面。现有方法缺乏对LLM数字孪生体与人类在认知和行为上的系统性比较,导致无法确定其在社会科学研究中的适用范围和可靠性。现有研究未能充分考虑个体差异和任务情境对LLM性能的影响。

核心思路:论文的核心思路是建立一个结构效度框架,从结构表征和nomological net两个维度,全面评估LLM数字孪生体与人类的心理测量可比性。通过跨模型、任务和个体特定输入进行基准测试,揭示LLM在模拟人类认知和行为方面的优势和局限性。该框架强调了对LLM在不同情境下的表现进行细致评估的重要性。

技术框架:该研究的技术框架包括以下几个主要模块: 1. 结构表征评估:评估LLM在词语联想、人格预测等任务中对心理结构的表征能力。 2. Nomological Net评估:评估LLM在决策、情境化任务和自由文本生成等任务中与人类行为模式的一致性。 3. 个体特定输入的影响:研究个体特征(如人格、背景)如何影响LLM的输出。 4. 跨模型比较:比较不同LLM(如GPT-3、GPT-4)在上述任务中的表现。

关键创新:该研究的关键创新在于: 1. 结构效度框架:提出了一个系统的结构效度框架,用于评估LLM数字孪生体的心理测量可比性。 2. 多维度评估:从结构表征和nomological net两个维度,全面评估LLM在不同任务中的表现。 3. 个体特定输入的影响:研究了个体特征对LLM输出的影响,弥补了现有研究的不足。

关键设计:研究的关键设计包括: 1. 任务选择:选择了涵盖不同认知和行为领域的任务,如词语联想、人格预测、决策、情境化任务和自由文本生成。 2. 人类黄金标准:将LLM的输出与人类的真实数据进行比较,作为评估其可比性的黄金标准。 3. 特征工程:在人格预测和自由文本生成等任务中,使用了富含特征的条件化方法,以提高LLM的性能。 4. 统计分析:使用了多种统计方法,如相关分析、方差分析和不变性检验,以评估LLM与人类之间的差异。

📊 实验亮点

研究发现,LLM数字孪生体在群体层面表现出较高的准确性,但在个体层面和特定任务中与人类存在显著差异。例如,在词语联想测试中,LLM表现出与人类相似的小世界结构,但在词汇和局部结构上存在差异。在决策任务中,LLM对启发式偏差的重现程度较低,表现出规范理性。富含特征的数字孪生体改善了大五人格预测,但其人格网络仅表现出构型不变性。

🎯 应用场景

该研究成果可应用于社会科学研究、市场调研、用户行为建模等领域。通过了解LLM数字孪生体的优势和局限性,研究人员可以更有效地利用它们来替代或补充人类受试者,降低研究成本,提高研究效率。未来的研究可以进一步探索如何改进LLM,使其更准确地模拟人类认知和行为。

📄 摘要(原文)

Large language models (LLMs) are used as "digital twins" to replace human respondents, yet their psychometric comparability to humans is uncertain. We propose a construct-validity framework spanning construct representation and the nomological net, benchmarking digital twins against human gold standards across models, tasks and testing how person-specific inputs shape performance. Across studies, digital twins achieved high population-level accuracy and strong within-participant profile correlations, alongside attenuated item-level correlations. In word association tests, LLM-based networks show small-world structure and theory-consistent communities similar to humans, yet diverge lexically and in local structure. In decision-making and contextualized tasks, digital twins under-reproduce heuristic biases, showing normative rationality, compressed variance and limited sensitivity to temporal information. Feature-rich digital twins improve Big Five Personality prediction, but their personality networks show only configural invariance and do not achieve metric invariance. In more applied free-text tasks, feature-rich digital twins better match human narratives, but linguistic differences persist. Together, these results indicate that feature-rich conditioning enhances validity but does not resolve systematic divergences in psychometric comparability. Future work should therefore prioritize delineating the effective boundaries of digital twins, establishing the precise contexts in which they function as reliable proxies for human cognition and behavior.