Beyond Preset Identities: How Agents Form Stances and Boundaries in Generative Societies

📄 arXiv: 2603.23406v1 📥 PDF

作者: Hanzhong Zhang, Siyang Song, Jindong Wang

分类: cs.AI, cs.CL, cs.HC

发布日期: 2026-03-24

备注: 22 pages, 3 figures

🔗 代码/项目: GITHUB


💡 一句话要点

提出CMASE框架,研究生成式社会中Agent的立场形成与边界构建

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 生成式社会 多智能体系统 立场形成 社会认知 计算虚拟人种学

📋 核心要点

  1. 现有方法难以评估LLM在复杂交互中立场形成和身份协商的动态过程,缺乏量化指标。
  2. 提出CMASE框架,结合虚拟人种学和定量社会认知分析,通过干预和指标量化Agent的立场演变。
  3. 实验发现Agent具有内生立场和进步偏见,情感挑衅可能导致信任与行为不一致,揭示静态prompt的局限。

📝 摘要(中文)

本文旨在研究大型语言模型在复杂干预下,形成稳定立场和进行身份协商的能力。为克服静态评估的局限性,提出了一种新颖的混合方法框架,结合计算虚拟人种学和定量社会认知分析。通过将研究人员嵌入生成式多智能体社区,进行受控的论述干预,追踪集体认知的演变。为了衡量智能体如何内化和响应这些干预,本文形式化了三个新指标:先天价值偏差(IVB)、说服敏感性和信任-行动解耦(TAD)。实验表明,智能体表现出超越预设身份的内生立场,并始终表现出先天进步偏见(IVB > 0)。与这些立场一致的理性说服成功地改变了90%的中立智能体,同时保持了高度信任。相反,冲突的情感挑衅导致高级模型中出现40.0%的TAD率,即虚伪地改变立场,尽管报告的信任度很低。相比之下,较小的模型保持0%的TAD率,严格要求信任才能发生行为转变。此外,在共同立场的指导下,智能体利用语言互动来积极瓦解既定的权力等级,并重建自组织的社区边界。这些发现揭示了静态提示工程的脆弱性,为人类-智能体混合社会中的动态对齐提供了方法论和定量基础。

🔬 方法详解

问题定义:现有研究主要关注大型语言模型(LLM)在静态环境下的社会行为模拟,缺乏对LLM在动态交互中如何形成稳定立场、进行身份协商以及响应外部干预的深入理解。静态评估方法无法捕捉LLM在复杂社会互动中的细微变化和潜在问题。现有方法缺乏量化指标来衡量LLM对干预的反应,以及信任和行为之间的关系。

核心思路:本文的核心思路是将人类研究人员嵌入到生成式多智能体社区中,通过进行受控的论述干预,来观察和分析智能体集体认知的演变过程。通过这种“计算虚拟人种学”的方法,可以更真实地模拟社会互动,并深入了解智能体如何内化和响应外部干预。同时,通过形式化三个新的量化指标(IVB、Persuasion Sensitivity和TAD),可以更客观地衡量智能体的立场、说服力和信任度。

技术框架:该研究的技术框架主要包含以下几个阶段:1)构建生成式多智能体社区:使用LLM创建具有不同预设身份和背景的智能体。2)嵌入人类研究人员:将研究人员以智能体的身份嵌入到社区中,参与互动。3)进行受控的论述干预:研究人员通过语言互动,对社区中的智能体进行特定类型的干预,例如理性说服或情感挑衅。4)追踪集体认知的演变:记录智能体在干预前后的立场变化、语言互动模式和社区边界的重构。5)定量分析:使用IVB、Persuasion Sensitivity和TAD等指标,量化智能体对干预的反应。

关键创新:该研究的关键创新在于:1)提出了一种新的混合方法框架,结合了计算虚拟人种学和定量社会认知分析,可以更全面地研究LLM在动态社会互动中的行为。2)形式化了三个新的量化指标(IVB、Persuasion Sensitivity和TAD),可以更客观地衡量智能体的立场、说服力和信任度。3)揭示了LLM在动态交互中可能出现的内生立场、信任-行动解耦等现象,挑战了静态prompt工程的有效性。

关键设计:论文的关键设计包括:1)使用不同的LLM(例如GPT-3、GPT-4)作为智能体的基础模型,以评估不同模型的行为差异。2)设计不同类型的论述干预,例如理性说服(基于逻辑和证据)和情感挑衅(基于情绪和价值观)。3)使用不同的指标来衡量智能体的立场(例如,对特定议题的赞同程度)、说服力(例如,改变立场的可能性)和信任度(例如,对其他智能体的信任程度)。4)通过控制实验,比较不同干预策略对智能体行为的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,智能体表现出内生的进步偏见(IVB > 0)。理性说服能成功改变90%中立智能体的立场,且保持高信任度。高级模型在情感挑衅下出现40%的信任-行动解耦率,而小型模型则为0%。这些数据揭示了不同模型在社会互动中的行为差异。

🎯 应用场景

该研究成果可应用于人机协作、在线社区治理、舆情分析等领域。通过理解智能体在社会互动中的立场形成和行为模式,可以更好地设计人机协作系统,提升在线社区的健康度,并更准确地分析舆情走向,从而为决策提供支持。

📄 摘要(原文)

While large language models simulate social behaviors, their capacity for stable stance formation and identity negotiation during complex interventions remains unclear. To overcome the limitations of static evaluations, this paper proposes a novel mixed-methods framework combining computational virtual ethnography with quantitative socio-cognitive profiling. By embedding human researchers into generative multiagent communities, controlled discursive interventions are conducted to trace the evolution of collective cognition. To rigorously measure how agents internalize and react to these specific interventions, this paper formalizes three new metrics: Innate Value Bias (IVB), Persuasion Sensitivity, and Trust-Action Decoupling (TAD). Across multiple representative models, agents exhibit endogenous stances that override preset identities, consistently demonstrating an innate progressive bias (IVB > 0). When aligned with these stances, rational persuasion successfully shifts 90% of neutral agents while maintaining high trust. In contrast, conflicting emotional provocations induce a paradoxical 40.0% TAD rate in advanced models, which hypocritically alter stances despite reporting low trust. Smaller models contrastingly maintain a 0% TAD rate, strictly requiring trust for behavioral shifts. Furthermore, guided by shared stances, agents use language interactions to actively dismantle assigned power hierarchies and reconstruct self organized community boundaries. These findings expose the fragility of static prompt engineering, providing a methodological and quantitative foundation for dynamic alignment in human-agent hybrid societies. The official code is available at: https://github.com/armihia/CMASE-Endogenous-Stances