When Can Digital Personas Reliably Approximate Human Survey Findings?

📄 arXiv: 2605.10659v1 📥 PDF

作者: Mumin Jia, Yilin Chen, Divya Sharma, Jairo Diaz-Rodriguez

分类: cs.CL, cs.AI, cs.SI, stat.ML

发布日期: 2026-05-11


💡 一句话要点

量化评估基于大语言模型的数字人格在社会调查中的可靠性与适用边界

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 数字人格 社会调查 计算社会科学 检索增强生成 行为模拟 模型评估

📋 核心要点

  1. 核心问题:LLM驱动的数字人格能否替代人类受访者尚缺乏系统性评估,特别是在个体预测精度与复杂响应结构恢复方面的能力边界模糊。
  2. 方法要点:利用LISS面板历史数据构建数字人格,通过对比模型预测与真实受访者留存数据,系统性评估不同架构、模型及任务下的性能表现。
  3. 实验效果:发现数字人格在群体分布对齐上表现良好,但在个体预测上受限;检索增强架构(RAG)显著提升了对齐效果,且性能高度依赖于数据本身的结构特征。

📝 摘要(中文)

由大语言模型(LLM)驱动的数字人格正被提议作为人类调查受访者的替代方案,但其在何种条件下能可靠地近似人类调查结果尚不明确。本研究利用LISS面板数据,通过受访者的背景变量和2023年前的调查历史构建数字人格,并针对同一受访者后续的留存数据进行验证。研究跨越四种人格架构、三种LLM及两项预测任务,从问题、受访者、分布、公平性和聚类等多个维度评估性能。结果表明,数字人格在与稳定属性和价值观相关的领域能较好地对齐人类响应分布,但在个体预测和恢复多变量受访者结构方面仍存在局限。检索增强架构(RAG)表现最优,但模型性能更多取决于人类响应的结构而非模型本身:数字人格在低变异性问题和常见受访者模式上表现最佳,而在主观性强、异质性高或罕见响应的问题上表现较差。本研究为数字人格在调查研究中的适用性提供了实践指南。

🔬 方法详解

问题定义:研究旨在量化评估数字人格在社会科学调查中的替代效能。现有痛点在于,虽然LLM能模拟人类语言,但其是否能准确捕捉人类的异质性、价值观及复杂行为模式,以及在何种特定任务下其预测结果具有统计学意义,目前缺乏严谨的实证分析。

核心思路:通过构建基于真实受访者历史数据(背景变量与过往问卷)的数字人格,将其作为“代理人”进行问卷回答,并与同一受访者的真实后续回答进行对比,从而界定数字人格的可靠性边界。

技术框架:研究采用了四种不同的架构(包括直接提示、上下文学习、检索增强生成等),测试了三种主流LLM。流程包括:数据预处理(提取背景与历史)、人格构建(Prompt工程与上下文注入)、问卷预测(模拟受访过程)以及多维度评估(分布对齐、个体预测精度、公平性分析)。

关键创新:引入了多层级的评估框架,不仅关注宏观的分布对齐,还深入探讨了微观的个体预测能力及多变量结构恢复能力,揭示了模型性能与人类响应结构(如变异性、主观性)之间的内在关联。

关键设计:采用了LISS面板作为基准数据集,通过留存测试(Hold-out testing)确保评估的客观性。特别对比了RAG架构与非RAG架构,验证了检索历史数据对提升模型响应一致性的关键作用,并分析了不同问题类型(客观事实 vs 主观态度)对预测准确度的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验表明,数字人格在群体分布对齐方面表现出较强潜力,尤其在稳定属性领域。检索增强架构(RAG)显著优于基础模型。然而,在个体预测任务中,模型表现受限,且在处理高异质性或罕见响应时性能显著下降,揭示了模型性能上限受限于人类响应数据的结构特征,而非单纯的模型参数规模。

🎯 应用场景

该研究为社会科学调查、市场调研及政策模拟提供了重要参考。它明确了数字人格在处理大规模、低变异性调查时的潜力,同时警示了在涉及高度主观、复杂异质性群体研究时,必须保留人类验证环节,以避免模型偏差带来的决策风险。

📄 摘要(原文)

Digital personas powered by Large Language Models (LLMs) are increasingly proposed as substitutes for human survey respondents, yet it remains unclear when they can reliably approximate human survey findings. We answer this question using the LISS panel, constructing personas from respondents' background variables and pre-2023 survey histories, then testing them against the same respondents' held-out post-cutoff answers. Across four persona architectures, three LLMs, and two prediction tasks, we assess performance at the question, respondent, distributional, equity, and clustering levels. Digital personas improve alignment with human response distributions, especially in domains tied to stable attributes and values, but remain limited for individual prediction and fail to recover multivariate respondent structure. Retrieval-augmented architectures provide the clearest gains, but performance depends more on human response structure than on model choice: personas perform best for low-variability questions and common respondent patterns, and worst for subjective, heterogeneous, or rare responses. Our results provide practical guidance on when digital personas could be appropriate for survey research and when human validation remains necessary.