Population-Aligned Persona Generation for LLM-based Social Simulation

📄 arXiv: 2509.10127v2 📥 PDF

作者: Zhengyu Hu, Jianxun Lian, Zheyuan Xiao, Max Xiong, Yuxuan Lei, Tianfu Wang, Kaize Ding, Ziang Xiao, Nicholas Jing Yuan, Xing Xie

分类: cs.CL, cs.AI, cs.LG

发布日期: 2025-09-12 (更新: 2025-10-04)


💡 一句话要点

提出人口对齐的Persona生成框架,用于提升LLM驱动的社会模拟的真实性和准确性。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 社会模拟 大型语言模型 Persona生成 人口对齐 重要性抽样

📋 核心要点

  1. 现有基于LLM的社会模拟研究忽略了persona生成过程中的偏差,导致模拟结果的真实性和代表性不足。
  2. 该论文提出一个系统框架,通过LLM生成、质量评估、重要性抽样对齐等步骤,合成高质量、人口对齐的persona集合。
  3. 实验表明,该方法显著降低了人口层面的偏差,提升了社会模拟的准确性和灵活性,适用于多种研究和政策应用。

📝 摘要(中文)

大型语言模型(LLM)的最新进展使得前所未有规模和逼真度的人类社会模拟成为可能,为计算社会科学提供了新的机遇。然而,一个关键挑战是构建能够真实代表现实世界人口多样性和分布的persona集合。目前基于LLM的社会模拟研究主要集中在设计代理框架和模拟环境,往往忽略了persona生成的复杂性以及非代表性persona集合可能引入的偏差。本文提出了一个系统的框架,用于合成高质量、人口对齐的persona集合,以驱动LLM的社会模拟。我们的方法首先利用LLM从长期社交媒体数据中生成叙事性persona,然后进行严格的质量评估以过滤掉低质量的profile。接着,我们应用重要性抽样来实现与参考心理测量分布(如大五人格特质)的全局对齐。为了满足特定模拟环境的需求,我们进一步引入了一个任务特定的模块,将全局对齐的persona集合调整到目标子群体。大量的实验表明,我们的方法显著降低了人口层面的偏差,并为广泛的研究和政策应用实现了准确、灵活的社会模拟。

🔬 方法详解

问题定义:现有基于LLM的社会模拟研究在persona生成方面存在不足,生成的persona集合可能无法真实反映现实世界人口的分布和多样性,从而导致模拟结果产生偏差。现有的方法往往侧重于模拟环境和代理框架的设计,而忽略了persona质量和代表性的重要性。

核心思路:论文的核心思路是通过一个多阶段的框架,首先利用LLM生成persona,然后通过质量评估筛选高质量的persona,最后通过重要性抽样和任务特定调整,使生成的persona集合在人口统计学和心理学特征上与真实世界人口对齐。这种方法旨在减少模拟中的偏差,提高模拟结果的真实性和可靠性。

技术框架:该框架包含以下三个主要模块: 1. Persona生成:利用LLM从社交媒体数据中生成叙事性persona。 2. 质量评估:对生成的persona进行质量评估,过滤掉低质量的profile。 3. 人口对齐:通过重要性抽样实现与参考心理测量分布(如大五人格特质)的全局对齐,并引入任务特定的模块,将全局对齐的persona集合调整到目标子群体。

关键创新:该论文的关键创新在于提出了一个系统性的、多阶段的persona生成框架,该框架不仅利用LLM生成persona,而且通过质量评估和人口对齐,确保生成的persona集合具有高质量和代表性。与现有方法相比,该方法更加注重persona生成的质量和真实性,从而提高了社会模拟的准确性和可靠性。

关键设计: 1. 重要性抽样:使用重要性抽样来调整persona的权重,使其与目标人口的心理测量分布相匹配。 2. 任务特定调整:引入一个任务特定的模块,根据具体的模拟任务调整persona的特征,以更好地模拟特定子群体。 3. 质量评估指标:设计了一系列指标来评估生成的persona的质量,例如一致性、完整性和真实性。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,该方法能够显著降低人口层面的偏差,并提高社会模拟的准确性和灵活性。与现有方法相比,该方法生成的persona集合更具有代表性,能够更真实地反映现实世界人口的分布和多样性。具体的性能数据和对比基线在论文中进行了详细的展示。

🎯 应用场景

该研究成果可应用于多个领域,例如公共政策制定、市场营销、社会行为研究等。通过构建高质量、人口对齐的社会模拟,可以更准确地预测政策或产品的影响,从而为决策提供更可靠的依据。此外,该方法还可以用于研究社会现象,例如舆论传播、群体行为等,从而加深对社会运行规律的理解。

📄 摘要(原文)

Recent advances in large language models (LLMs) have enabled human-like social simulations at unprecedented scale and fidelity, offering new opportunities for computational social science. A key challenge, however, is the construction of persona sets that authentically represent the diversity and distribution of real-world populations. Most existing LLM-based social simulation studies focus primarily on designing agentic frameworks and simulation environments, often overlooking the complexities of persona generation and the potential biases introduced by unrepresentative persona sets. In this paper, we propose a systematic framework for synthesizing high-quality, population-aligned persona sets for LLM-driven social simulation. Our approach begins by leveraging LLMs to generate narrative personas from long-term social media data, followed by rigorous quality assessment to filter out low-fidelity profiles. We then apply importance sampling to achieve global alignment with reference psychometric distributions, such as the Big Five personality traits. To address the needs of specific simulation contexts, we further introduce a task-specific module that adapts the globally aligned persona set to targeted subpopulations. Extensive experiments demonstrate that our method significantly reduces population-level bias and enables accurate, flexible social simulation for a wide range of research and policy applications.