Restoring Heterogeneity in LLM-based Social Simulation: An Audience Segmentation Approach

📄 arXiv: 2604.06663v1 📥 PDF

作者: Xiaoyou Qin, Zhihong Li, Xiaoxiao Cheng

分类: cs.CY, cs.AI

发布日期: 2026-04-08


💡 一句话要点

提出基于LLM的社会模拟受众分割方法,提升异质性建模能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社会模拟 受众分割 异质性建模 气候观点 评估框架 Llama 3 Mixtral

📋 核心要点

  1. 现有基于LLM的社会模拟方法忽略了社会群体内部的异质性,将多样性简化为平均水平,无法捕捉真实社会结构的复杂性。
  2. 本文提出受众分割方法,通过细分人群,在LLM社会模拟中恢复异质性,从而更准确地模拟社会态度和行为。
  3. 实验结果表明,适当的受众分割可以有效提升模拟的分布、结构和预测保真度,但过度的分割可能适得其反。

📝 摘要(中文)

本文提出了一种受众分割方法,旨在恢复基于大型语言模型(LLM)的社会模拟中的异质性。当前社会模拟实践常将多样性简化为“平均角色”,掩盖了对社会现实至关重要的亚群体差异。本文利用美国气候观点调查数据,比较了六种分割配置在两个开源LLM(Llama 3.1-70B和Mixtral 8x22B)上的表现,这些配置在分割标识符的粒度、简约性和选择逻辑(理论驱动、数据驱动和工具驱动)上有所不同。通过包含分布、结构和预测保真度的三维评估框架评估了模拟性能。结果表明,增加标识符粒度并不总能带来一致的改进;适度丰富可以提高性能,但进一步扩展并不可靠,反而会降低结构和预测保真度。在简约性比较中,紧凑配置通常与更全面的替代方案相匹配或优于后者,尤其是在结构和预测保真度方面,而分布保真度仍然依赖于具体指标。标识符选择逻辑决定了哪个保真度维度受益最多:基于工具的选择最能保留分布形状,而数据驱动的选择最能恢复组间结构和标识符-结果关联。总体而言,没有单一配置在所有维度上都占优,并且在一个维度上的性能提升可能与在另一个维度上的损失同时发生。这些发现将受众分割定位为有效LLM社会模拟的核心方法,并强调了对异质性敏感的评估和方差保持建模策略的需求。

🔬 方法详解

问题定义:现有基于LLM的社会模拟方法通常将人群视为同质的整体,忽略了不同社会群体之间的差异。这种简化导致模拟结果无法准确反映真实社会中存在的异质性,限制了其应用价值。现有方法的痛点在于缺乏有效建模和利用人群异质性的机制。

核心思路:本文的核心思路是通过受众分割来恢复LLM社会模拟中的异质性。具体而言,将人群划分为不同的亚群体(segments),并针对每个亚群体进行独立的LLM模拟。这样可以更精细地捕捉不同群体之间的差异,从而提高整体模拟的准确性和可靠性。

技术框架:该研究的技术框架主要包括以下几个阶段:1) 数据准备:使用美国气候观点调查数据作为实验数据。2) 受众分割:采用不同的分割配置,包括不同的分割标识符粒度、简约性和选择逻辑(理论驱动、数据驱动和工具驱动)。3) LLM模拟:使用Llama 3.1-70B和Mixtral 8x22B两个开源LLM对每个亚群体进行社会态度和行为模拟。4) 评估:使用三维评估框架(分布、结构和预测保真度)评估模拟结果。

关键创新:该研究的关键创新在于将受众分割方法引入到LLM社会模拟中,并系统地研究了不同分割配置对模拟结果的影响。与现有方法相比,该方法能够更有效地建模和利用人群异质性,从而提高模拟的准确性和可靠性。

关键设计:在受众分割方面,研究者探索了不同的分割标识符粒度(例如,使用更细粒度的社会人口学变量)、简约性(例如,使用更少的分割变量)和选择逻辑(例如,基于理论、数据或工具选择分割变量)。在评估方面,研究者使用了三维评估框架,综合考虑了模拟结果的分布、结构和预测保真度。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,适度的受众分割可以显著提升LLM社会模拟的性能。例如,数据驱动的分割方法在恢复组间结构和标识符-结果关联方面表现最佳,而基于工具的选择最能保留分布形状。紧凑的分割配置在结构和预测保真度方面通常优于更全面的替代方案。研究强调了在LLM社会模拟中考虑异质性的重要性。

🎯 应用场景

该研究成果可应用于多个领域,例如公共政策制定、市场营销、舆情分析等。通过更准确地模拟不同社会群体的态度和行为,可以为政策制定者提供更科学的决策依据,帮助企业更有效地进行市场推广,并及时发现和应对潜在的社会风险。未来,该方法有望扩展到其他社会科学领域,例如政治学、经济学等。

📄 摘要(原文)

Large Language Models (LLMs) are increasingly used to simulate social attitudes and behaviors, offering scalable "silicon samples" that can approximate human data. However, current simulation practice often collapses diversity into an "average persona," masking subgroup variation that is central to social reality. This study introduces audience segmentation as a systematic approach for restoring heterogeneity in LLM-based social simulation. Using U.S. climate-opinion survey data, we compare six segmentation configurations across two open-weight LLMs (Llama 3.1-70B and Mixtral 8x22B), varying segmentation identifier granularity, parsimony, and selection logic (theory-driven, data-driven, and instrument-based). We evaluate simulation performance with a three-dimensional evaluation framework covering distributional, structural, and predictive fidelity. Results show that increasing identifier granularity does not produce consistent improvement: moderate enrichment can improve performance, but further expansion does not reliably help and can worsen structural and predictive fidelity. Across parsimony comparisons, compact configurations often match or outperform more comprehensive alternatives, especially in structural and predictive fidelity, while distributional fidelity remains metric dependent. Identifier selection logic determines which fidelity dimension benefits most: instrument-based selection best preserves distributional shape, whereas data-driven selection best recovers between-group structure and identifier-outcome associations. Overall, no single configuration dominates all dimensions, and performance gains in one dimension can coincide with losses in another. These findings position audience segmentation as a core methodological approach for valid LLM-based social simulation and highlight the need for heterogeneity-aware evaluation and variance-preserving modeling strategies.