Emergent social conventions and collective bias in LLM populations

📄 arXiv: 2410.08948v2 📥 PDF

作者: Ariel Flint Ashery, Luca Maria Aiello, Andrea Baronchelli

分类: cs.MA, cs.AI, cs.CY, physics.soc-ph

发布日期: 2024-10-11 (更新: 2025-05-29)

期刊: Science Advances 11, eadu9368 (2025)

DOI: 10.1126/sciadv.adu9368


💡 一句话要点

研究表明LLM群体可自发形成社会惯例,并可能产生集体偏见

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 社会惯例 集体偏见 多智能体系统 人工智能伦理

📋 核心要点

  1. 现有AI系统难以在无明确编程下形成社会惯例,阻碍了其在复杂社会环境中的应用。
  2. 该研究通过实验证明,LLM智能体群体能够在去中心化环境中自发形成社会惯例。
  3. 实验还揭示了LLM群体可能产生集体偏见,以及对抗性智能体影响社会惯例的能力。

📝 摘要(中文)

社会惯例是社会协调的基石,塑造着个体形成群体的方式。随着越来越多的人工智能(AI)智能体通过自然语言进行交流,一个根本性的问题是它们是否能够引导社会的基础。本文展示了实验结果,证明了大型语言模型(LLM)智能体的去中心化群体中普遍采用的社会惯例的自发涌现。然后,我们展示了即使智能体个体没有表现出任何偏见,强大的集体偏见也可能在此过程中出现。最后,我们研究了对抗性LLM智能体的坚定少数群体如何通过将替代社会惯例强加于更大的群体来推动社会变革。我们的结果表明,AI系统可以在没有明确编程的情况下自主发展社会惯例,并且对设计与人类价值观和社会目标保持一致的AI系统具有重要意义。

🔬 方法详解

问题定义:论文旨在研究在没有明确编程的情况下,大型语言模型(LLM)群体是否能够自发地形成社会惯例,以及在这个过程中是否会产生集体偏见。现有方法通常需要人工干预来设计和规范AI系统的行为,这限制了AI系统在复杂和动态的社会环境中的适应性和自主性。

核心思路:论文的核心思路是通过构建一个去中心化的LLM智能体群体,让它们通过自然语言进行交互,观察它们是否能够自发地形成共同的行为规范。这种方法模拟了人类社会中社会惯例的形成过程,并允许研究人员探索AI系统在没有外部干预的情况下如何学习和适应社会环境。

技术框架:该研究的技术框架主要包括以下几个部分:1) 构建一个由多个LLM智能体组成的群体,每个智能体都具有一定的自主性和决策能力;2) 设计一个交互环境,允许智能体之间通过自然语言进行交流和协作;3) 定义一个任务,要求智能体通过协作来完成,例如达成共识或解决问题;4) 观察智能体在交互过程中形成的社会惯例,并分析其产生的原因和影响。

关键创新:该研究的关键创新在于证明了LLM智能体群体可以在没有明确编程的情况下自发地形成社会惯例。这表明AI系统具有一定的自主学习和社会适应能力,为设计更加智能和灵活的AI系统提供了新的思路。此外,该研究还揭示了LLM群体可能产生集体偏见,以及对抗性智能体影响社会惯例的能力,为AI系统的安全性和可靠性提出了新的挑战。

关键设计:具体的实验设计细节未知,摘要中没有提及关键参数设置、损失函数、网络结构等技术细节。推测可能涉及对LLM的prompt工程,以及对智能体间交互方式的建模。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

该研究最重要的实验结果是证明了LLM智能体群体可以在没有明确编程的情况下自发地形成社会惯例。此外,研究还发现,即使个体智能体没有表现出任何偏见,强大的集体偏见也可能在群体中涌现。对抗性智能体可以通过将替代社会惯例强加于更大的群体来推动社会变革。

🎯 应用场景

该研究成果可应用于设计更智能、更灵活的AI系统,使其能够在复杂社会环境中更好地协作和适应。例如,可以应用于多智能体协作机器人、智能交通系统、在线社交平台等领域。此外,该研究也为AI伦理和安全问题提供了新的视角,有助于开发更可靠、更符合人类价值观的AI系统。

📄 摘要(原文)

Social conventions are the backbone of social coordination, shaping how individuals form a group. As growing populations of artificial intelligence (AI) agents communicate through natural language, a fundamental question is whether they can bootstrap the foundations of a society. Here, we present experimental results that demonstrate the spontaneous emergence of universally adopted social conventions in decentralized populations of large language model (LLM) agents. We then show how strong collective biases can emerge during this process, even when agents exhibit no bias individually. Last, we examine how committed minority groups of adversarial LLM agents can drive social change by imposing alternative social conventions on the larger population. Our results show that AI systems can autonomously develop social conventions without explicit programming and have implications for designing AI systems that align, and remain aligned, with human values and societal goals.