Parametric Social Identity Injection and Diversification in Public Opinion Simulation

作者: Hexi Wang, Yujia Zhou, Bangde Du, Qingyao Ai, Yiqun Liu

分类: cs.CL

发布日期: 2026-03-17

备注: 16 pages, 9 figures

🔗 代码/项目: GITHUB

💡 一句话要点

提出参数化社会身份注入方法，提升LLM在公共舆论模拟中的多样性

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 公共舆论模拟 大型语言模型 社会身份注入 多样性建模 参数化表示

📋 核心要点

现有基于LLM的舆论模拟方法无法有效捕捉社会多样性，导致群体间差异减小和群体内同质化。
论文提出参数化社会身份注入（PSII）框架，通过将人口属性和价值观的参数化表示注入LLM中间层来解决多样性问题。
实验表明，PSII显著提高了模拟结果的分布保真度和多样性，更贴近真实世界数据。

📝 摘要（中文）

大型语言模型（LLMs）已被应用于公共舆论模拟，成为一种替代成本高昂且耗时的人工调查的方法。然而，现有的基于LLM的模拟方法未能捕捉到社会多样性，导致群体间差异扁平化，以及人口群体内部的过度同质化响应。作者将此限制归因于LLM隐藏表示中的“多样性崩溃”现象，即不同的社会身份在各层中变得越来越难以区分。受此启发，作者提出了参数化社会身份注入（PSII）框架，将人口属性和价值观取向的显式参数化表示直接注入到LLM的中间隐藏状态中。与基于提示的个性化调节不同，PSII能够在表示层面进行细粒度和可控的身份调制。在世界价值观调查上的大量实验表明，PSII显著提高了分布保真度和多样性，降低了与真实世界调查数据的KL散度，同时增强了整体多样性。这项工作为LLM代理的表示层面控制提供了新的见解，并推进了可扩展的、具有多样性意识的公共舆论模拟。

🔬 方法详解

问题定义：现有基于大型语言模型（LLM）的公共舆论模拟方法，在模拟不同社会群体时，存在“多样性崩溃”问题。具体表现为，不同社会身份（如不同年龄、性别、价值观的人群）在LLM的隐藏表示中变得难以区分，导致模拟结果缺乏群体间的差异性和群体内部的多样性。现有方法，如prompt工程，难以进行细粒度的身份控制，且效果有限。

核心思路：论文的核心思路是通过显式地将社会身份信息（人口属性和价值观）参数化，并将这些参数化的身份表示注入到LLM的中间隐藏层中。这样，模型在生成响应时，能够更好地感知和利用这些身份信息，从而提升模拟结果的多样性。这种方法的核心在于直接在表示层面进行身份调制，而非依赖于prompt或微调。

技术框架：PSII框架主要包含以下几个阶段：1) 身份编码：将人口属性（如年龄、性别、教育程度）和价值观取向（如保守主义、自由主义）编码成参数化的向量表示。2) 隐藏状态注入：将编码后的身份向量注入到LLM的中间隐藏状态中。具体来说，可以通过加法、乘法或更复杂的变换方式将身份向量与隐藏状态融合。3) 响应生成：LLM基于融合了身份信息的隐藏状态生成响应。4) 多样性评估：使用KL散度等指标评估模拟结果与真实世界数据的分布差异，以及群体内部的多样性。

关键创新：PSII的关键创新在于：1) 参数化身份表示：将社会身份显式地表示为参数化的向量，使得身份信息可以被精确地控制和调制。2) 中间层注入：将身份信息注入到LLM的中间隐藏状态，而非仅仅依赖于输入prompt，从而实现更细粒度的身份控制。3) 通用性：PSII是一个通用框架，可以应用于不同的LLM和不同的社会身份。

关键设计：在身份编码方面，可以使用预训练的词向量或专门训练的嵌入模型来生成身份向量。在隐藏状态注入方面，可以使用加法、乘法或注意力机制等不同的融合方式。论文可能还探索了不同的损失函数来优化身份向量的表示，例如，可以使用对比学习损失来拉近相似身份的表示，推远不同身份的表示。具体的参数设置（如身份向量的维度、注入层的选择）可能需要根据具体的LLM和数据集进行调整。

🖼️ 关键图片

📊 实验亮点

实验结果表明，PSII框架显著降低了模拟结果与真实世界数据的KL散度，表明其分布保真度更高。同时，PSII也提升了模拟结果的多样性，使得不同社会群体之间的差异更加明显。具体而言，与基线方法相比，PSII在多个LLM上都取得了显著的性能提升，证明了其有效性和通用性。

🎯 应用场景

该研究成果可应用于公共政策制定、市场调研、舆情分析等领域。通过更准确地模拟不同社会群体的观点和行为，可以帮助决策者更好地了解社会需求，评估政策影响，并制定更有效的沟通策略。此外，该方法还可以用于生成更具多样性的对话系统和个性化推荐系统。

📄 摘要（原文）

Large language models (LLMs) have recently been adopted as synthetic agents for public opinion simulation, offering a promising alternative to costly and slow human surveys. Despite their scalability, current LLM-based simulation methods fail to capture social diversity, producing flattened inter-group differences and overly homogeneous responses within demographic groups. We identify this limitation as a Diversity Collapse phenomenon in LLM hidden representations, where distinct social identities become increasingly indistinguishable across layers. Motivated by this observation, we propose Parametric Social Identity Injection (PSII), a general framework that injects explicit, parametric representations of demographic attributes and value orientations directly into intermediate hidden states of LLMs. Unlike prompt-based persona conditioning, PSII enables fine-grained and controllable identity modulation at the representation level. Extensive experiments on the World Values Survey using multiple open-source LLMs show that PSII significantly improves distributional fidelity and diversity, reducing KL divergence to real-world survey data while enhancing overall diversity. This work provides new insights into representation-level control of LLM agents and advances scalable, diversity-aware public opinion simulation. Code and data are available at https://github.com/halsayxi/PSII.

Parametric Social Identity Injection and Diversification in Public Opinion Simulation

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理