Mapping how LLMs debate societal issues when shadowing human personality traits, sociodemographics and social media behavior

📄 arXiv: 2604.27624v1 📥 PDF

作者: Ali Aghazadeh Ardebili, Massimo Stella

分类: cs.CL, cs.AI, cs.CY, cs.HC, cs.LG

发布日期: 2026-04-30


💡 一句话要点

构建认知数字阴影数据集,评估LLM在模拟社会辩论中的表现与偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社会辩论 数据集构建 偏见评估 认知数字阴影

📋 核心要点

  1. 现有研究缺乏对LLM在模拟不同社会背景下辩论行为的系统性分析,难以评估其潜在偏见和社会影响。
  2. 论文构建了包含丰富社会属性的“认知数字阴影”数据集,通过控制提示条件,研究LLM在不同社会议题上的立场和推理。
  3. 该数据集包含19万条记录,并提供用户友好的交互式平台,支持对LLM的情感和语义框架进行深入分析和比较。

📝 摘要(中文)

本文提出了一个名为“认知数字阴影”(CDS)的合成数据集,包含19万条记录,旨在研究大型语言模型(LLM)在模拟人类个性特征、社会人口统计学特征和社会媒体行为时,如何就社会问题进行辩论。CDS数据集由19个LLM生成,提示它们模拟人类角色或AI助手角色。数据集包含关于疫苗/医疗保健、社交媒体虚假信息、科学领域的性别差距和STEM刻板印象这四个有争议的社会话题的LLM回复。Persona条件记录编码了17个社会人口统计学和心理属性,提供了连接LLM提示、语言、立场和推理的数据。文本经过主题锚定验证,并可以通过可解释的NLP(例如,文本形式心态网络)支持情感分析。CDS通过一个用户友好的仪表板平台进行增强,可以轻松地对不同角色、主题和模型的情感和语义框架进行交互式组级别比较。CDS提示框架支持未来对LLM的偏见、社会敏感性和对齐进行审计。

🔬 方法详解

问题定义:现有方法缺乏对LLM在模拟不同社会背景下进行辩论行为的系统性研究。具体来说,缺乏一个包含丰富社会属性标注的数据集,使得难以评估LLM在面对不同社会议题时的潜在偏见、社会敏感性和对齐问题。现有数据集通常规模较小,或者缺乏对社会属性的细粒度控制。

核心思路:论文的核心思路是通过构建一个大规模的合成数据集,即“认知数字阴影”(CDS),来模拟LLM在不同社会背景下的辩论行为。通过控制LLM的提示条件,例如模拟不同社会人口统计学和心理属性的人类角色,来研究LLM在不同社会议题上的立场和推理。这样可以系统性地分析LLM的偏见和社会影响。

技术框架:CDS数据集的构建流程主要包括以下几个阶段: 1. Persona定义:定义17个社会人口统计学和心理属性,用于模拟不同的人类角色。 2. LLM提示:使用定义的Persona属性,提示19个不同的LLM模拟人类角色或AI助手角色,就四个有争议的社会话题(疫苗/医疗保健、社交媒体虚假信息、科学领域的性别差距和STEM刻板印象)进行辩论。 3. 数据收集:收集LLM生成的回复,并将其与对应的Persona属性进行关联。 4. 数据验证:对收集到的文本进行主题锚定验证,确保文本与设定的主题相关。 5. 平台构建:构建一个用户友好的交互式平台,支持对不同角色、主题和模型的情感和语义框架进行比较分析。

关键创新:该论文的关键创新在于构建了一个大规模、包含丰富社会属性标注的合成数据集(CDS),用于研究LLM在模拟社会辩论中的表现。与现有方法相比,CDS数据集提供了更细粒度的社会属性控制,使得可以更系统地分析LLM的偏见和社会影响。此外,该论文还构建了一个用户友好的交互式平台,方便研究人员进行数据分析和可视化。

关键设计:在Persona定义方面,论文选择了17个社会人口统计学和心理属性,例如年龄、性别、教育程度、政治倾向等,这些属性被认为对LLM的辩论行为有重要影响。在LLM提示方面,论文使用了精心设计的提示语,以确保LLM能够准确地模拟设定的角色。在数据验证方面,论文使用了主题锚定技术,确保LLM生成的文本与设定的主题相关。在平台构建方面,论文使用了用户友好的仪表板,方便研究人员进行数据分析和可视化。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究构建了一个包含19万条记录的大规模数据集,涵盖19个LLM和4个社会议题。通过对数据集的分析,可以深入了解LLM在模拟不同社会角色时的辩论行为和潜在偏见。该数据集还提供了一个用户友好的交互式平台,方便研究人员进行数据分析和可视化,从而加速相关研究的进展。

🎯 应用场景

该研究成果可应用于评估和改进LLM的社会敏感性和公平性,降低其在社会辩论中产生偏见或传播错误信息的风险。此外,该数据集和平台可用于开发更安全、更负责任的AI系统,并促进公众对AI技术的理解和信任。该研究对于构建更符合伦理规范的AI系统具有重要意义。

📄 摘要(原文)

Large Language Models (LLMs) can strongly shape social discourse, yet datasets investigating how LLM outputs vary across controlled social and contextual prompting remain sparse. Cognitive Digital Shadows (CDS) is a 190,000-record synthetic corpus supporting analyses of LLM-generated discourse. Each CDS record is generated by one of 19 LLMs, prompted to shadow either a human persona or an AI-assistant role. CDS contains LLM responses on 4 controversial societal topics: vaccines/healthcare, social media disinformation, the gender gap in science, and STEM stereotypes. Persona-conditioned records encode 17 sociodemographic and psychological attributes, providing data linking LLMs' prompts, language, stances and reasoning. Texts are validated for topic anchoring and can support emotional analyses via interpretable NLP (e.g. textual forma mentis networks). CDS is enriched by a pooling platform with user-friendly dashboards, enabling easy, interactive group-level comparisons of emotional and semantic framing across personas, topics and models. The CDS prompting framework supports future audits of LLMs' bias, social sensitivity and alignment.