Parametric Social Identity Injection and Diversification in Public Opinion Simulation

📄 arXiv: 2603.16142v1 📥 PDF

作者: Hexi Wang, Yujia Zhou, Bangde Du, Qingyao Ai, Yiqun Liu

分类: cs.CL

发布日期: 2026-03-17

备注: 16 pages, 9 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出参数化社会身份注入方法,提升LLM在公共舆论模拟中的多样性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 公共舆论模拟 大型语言模型 社会身份注入 多样性建模 参数化表示

📋 核心要点

  1. 现有基于LLM的舆论模拟方法无法有效捕捉社会多样性,导致群体间差异减小和群体内同质化。
  2. 论文提出参数化社会身份注入(PSII)框架,通过将人口属性和价值观的参数化表示注入LLM中间层来解决多样性问题。
  3. 实验表明,PSII显著提高了模拟结果的分布保真度和多样性,更贴近真实世界数据。

📝 摘要(中文)

大型语言模型(LLMs)已被应用于公共舆论模拟,成为一种替代成本高昂且耗时的人工调查的方法。然而,现有的基于LLM的模拟方法未能捕捉到社会多样性,导致群体间差异扁平化,以及人口群体内部的过度同质化响应。作者将此限制归因于LLM隐藏表示中的“多样性崩溃”现象,即不同的社会身份在各层中变得越来越难以区分。受此启发,作者提出了参数化社会身份注入(PSII)框架,将人口属性和价值观取向的显式参数化表示直接注入到LLM的中间隐藏状态中。与基于提示的个性化调节不同,PSII能够在表示层面进行细粒度和可控的身份调制。在世界价值观调查上的大量实验表明,PSII显著提高了分布保真度和多样性,降低了与真实世界调查数据的KL散度,同时增强了整体多样性。这项工作为LLM代理的表示层面控制提供了新的见解,并推进了可扩展的、具有多样性意识的公共舆论模拟。

🔬 方法详解

问题定义:现有基于大型语言模型(LLM)的公共舆论模拟方法,在模拟不同社会群体时,存在“多样性崩溃”问题。具体表现为,不同社会身份(如不同年龄、性别、价值观的人群)在LLM的隐藏表示中变得难以区分,导致模拟结果缺乏群体间的差异性和群体内部的多样性。现有方法,如prompt工程,难以进行细粒度的身份控制,且效果有限。

核心思路:论文的核心思路是通过显式地将社会身份信息(人口属性和价值观)参数化,并将这些参数化的身份表示注入到LLM的中间隐藏层中。这样,模型在生成响应时,能够更好地感知和利用这些身份信息,从而提升模拟结果的多样性。这种方法的核心在于直接在表示层面进行身份调制,而非依赖于prompt或微调。

技术框架:PSII框架主要包含以下几个阶段:1) 身份编码:将人口属性(如年龄、性别、教育程度)和价值观取向(如保守主义、自由主义)编码成参数化的向量表示。2) 隐藏状态注入:将编码后的身份向量注入到LLM的中间隐藏状态中。具体来说,可以通过加法、乘法或更复杂的变换方式将身份向量与隐藏状态融合。3) 响应生成:LLM基于融合了身份信息的隐藏状态生成响应。4) 多样性评估:使用KL散度等指标评估模拟结果与真实世界数据的分布差异,以及群体内部的多样性。

关键创新:PSII的关键创新在于:1) 参数化身份表示:将社会身份显式地表示为参数化的向量,使得身份信息可以被精确地控制和调制。2) 中间层注入:将身份信息注入到LLM的中间隐藏状态,而非仅仅依赖于输入prompt,从而实现更细粒度的身份控制。3) 通用性:PSII是一个通用框架,可以应用于不同的LLM和不同的社会身份。

关键设计:在身份编码方面,可以使用预训练的词向量或专门训练的嵌入模型来生成身份向量。在隐藏状态注入方面,可以使用加法、乘法或注意力机制等不同的融合方式。论文可能还探索了不同的损失函数来优化身份向量的表示,例如,可以使用对比学习损失来拉近相似身份的表示,推远不同身份的表示。具体的参数设置(如身份向量的维度、注入层的选择)可能需要根据具体的LLM和数据集进行调整。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,PSII框架显著降低了模拟结果与真实世界数据的KL散度,表明其分布保真度更高。同时,PSII也提升了模拟结果的多样性,使得不同社会群体之间的差异更加明显。具体而言,与基线方法相比,PSII在多个LLM上都取得了显著的性能提升,证明了其有效性和通用性。

🎯 应用场景

该研究成果可应用于公共政策制定、市场调研、舆情分析等领域。通过更准确地模拟不同社会群体的观点和行为,可以帮助决策者更好地了解社会需求,评估政策影响,并制定更有效的沟通策略。此外,该方法还可以用于生成更具多样性的对话系统和个性化推荐系统。

📄 摘要(原文)

Large language models (LLMs) have recently been adopted as synthetic agents for public opinion simulation, offering a promising alternative to costly and slow human surveys. Despite their scalability, current LLM-based simulation methods fail to capture social diversity, producing flattened inter-group differences and overly homogeneous responses within demographic groups. We identify this limitation as a Diversity Collapse phenomenon in LLM hidden representations, where distinct social identities become increasingly indistinguishable across layers. Motivated by this observation, we propose Parametric Social Identity Injection (PSII), a general framework that injects explicit, parametric representations of demographic attributes and value orientations directly into intermediate hidden states of LLMs. Unlike prompt-based persona conditioning, PSII enables fine-grained and controllable identity modulation at the representation level. Extensive experiments on the World Values Survey using multiple open-source LLMs show that PSII significantly improves distributional fidelity and diversity, reducing KL divergence to real-world survey data while enhancing overall diversity. This work provides new insights into representation-level control of LLM agents and advances scalable, diversity-aware public opinion simulation. Code and data are available at https://github.com/halsayxi/PSII.