The Chameleon's Limit: Investigating Persona Collapse and Homogenization in Large Language Models

📄 arXiv: 2604.24698v1 📥 PDF

作者: Yunze Xiao, Vivienne J. Zhang, Chenghao Yang, Ningshan Ma, Weihao Xuan, Jen-tse Huang

分类: cs.CL

发布日期: 2026-04-27


💡 一句话要点

揭示大语言模型人格崩塌现象,提出量化框架评估人口多样性

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 人格崩塌 人口多样性 多智能体模拟 行为模拟

📋 核心要点

  1. 多智能体模拟等应用依赖LLM,但现有模型存在人格崩塌问题,导致模拟人口同质化,缺乏多样性。
  2. 论文提出一个量化框架,从覆盖率、均匀性和复杂性三个维度评估LLM在人格模拟中的多样性。
  3. 实验表明,即使模型在单个人格上表现良好,也可能在人口层面产生刻板印象,导致人格崩塌。

📝 摘要(中文)

本文研究了基于大语言模型(LLMs)的应用中,如多智能体模拟,对智能体人口多样性的需求。作者发现了一种普遍存在的失效模式,称之为“人格崩塌”:即使每个智能体被分配了不同的配置文件,它们仍然会收敛到一种狭窄的行为模式,从而产生同质化的模拟人口。为了量化人格崩塌,作者提出了一个框架,该框架测量了人口占据人格空间的程度(覆盖率),智能体在其上的分布均匀程度(均匀性),以及由此产生的行为模式的丰富程度(复杂性)。通过在人格模拟(BFI-44)、道德推理和自我介绍方面评估了十个LLM,作者观察到人格崩塌沿着两个轴发生:(1)维度:一个模型可能在一个轴上表现出多样性,但在另一个轴上却在结构上退化;(2)领域:同一个模型可能在人格方面崩塌最严重,但在道德推理方面却最具多样性。此外,项目级别的诊断显示,行为变化跟踪粗略的人口统计刻板印象,而不是每个人格中指定的细粒度个体差异。与直觉相反的是, extbf{实现最高人格保真度的模型始终产生最具刻板印象的人口}。作者发布了他们的工具包和数据,以支持LLM的人口级别评估。

🔬 方法详解

问题定义:论文旨在解决大语言模型在多智能体模拟等应用中出现的人格崩塌问题。现有方法难以保证模拟人口的多样性,导致智能体行为趋同,无法真实反映复杂的人类社会。现有评估方法侧重于单个人格的模拟质量,忽略了人口层面的多样性。

核心思路:论文的核心思路是提出一个量化框架,从覆盖率、均匀性和复杂性三个维度来评估LLM在人格模拟中的多样性。覆盖率衡量人口占据人格空间的程度,均匀性衡量智能体分布的均匀程度,复杂性衡量行为模式的丰富程度。通过这三个指标,可以全面评估LLM是否能够生成多样化的人口。

技术框架:论文提出的框架包含以下几个主要模块:1) 人格生成模块:使用LLM生成具有不同人格特征的智能体;2) 行为模拟模块:模拟智能体在特定场景下的行为;3) 多样性评估模块:使用覆盖率、均匀性和复杂性三个指标来评估人口的多样性。框架的整体流程是:首先生成一批具有不同人格的智能体,然后模拟它们在特定场景下的行为,最后使用多样性评估模块来评估人口的多样性。

关键创新:论文最重要的技术创新点是提出了一个量化评估LLM人口多样性的框架。该框架不仅考虑了单个人格的模拟质量,还考虑了人口层面的多样性。此外,论文还发现,即使模型在单个人格上表现良好,也可能在人口层面产生刻板印象,导致人格崩塌。这个发现挑战了以往的研究,并为未来的研究提供了新的方向。

关键设计:覆盖率的计算方法是计算人口占据人格空间的比例。均匀性的计算方法是计算智能体在人格空间中的分布均匀程度。复杂性的计算方法是计算行为模式的丰富程度。具体而言,论文使用了BFI-44人格测试来定义人格空间,并使用余弦相似度来衡量智能体之间的行为相似度。此外,论文还使用了KL散度来衡量人口分布与均匀分布之间的差异。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,即使模型在单个人格上表现良好,也可能在人口层面产生刻板印象,导致人格崩塌。例如,某些模型在BFI-44人格测试中表现出较高的人格保真度,但在人口层面却表现出较低的多样性。此外,实验还发现,行为变化跟踪粗略的人口统计刻板印象,而不是每个人格中指定的细粒度个体差异。

🎯 应用场景

该研究成果可应用于多智能体模拟、社交机器人、游戏AI等领域。通过提高LLM生成人口的多样性,可以创建更真实、更复杂的模拟环境,从而更好地研究人类行为和社会现象。此外,该研究还可以帮助开发更具个性化和适应性的社交机器人,以及更智能、更有趣的游戏AI。

📄 摘要(原文)

Applications based on large language models (LLMs), such as multi-agent simulations, require population diversity among agents. We identify a pervasive failure mode we term \emph{Persona Collapse}: agents each assigned a distinct profile nonetheless converge into a narrow behavioral mode, producing a homogeneous simulated population. To quantify persona collapse, we propose a framework that measures how much of the persona space a population occupies (Coverage), how evenly agents spread across it (Uniformity), and how rich the resulting behavioral patterns are (Complexity). Evaluating ten LLMs on personality simulation (BFI-44), moral reasoning, and self-introduction, we observe persona collapse along two axes: (1) Dimensions: a model can appear diverse on one axis yet structurally degenerate on another, and (2) Domains: the same model may collapse the most in personality yet be the most diverse in moral reasoning. Furthermore, item-level diagnostics reveal that behavioral variation tracks coarse demographic stereotypes rather than the fine-grained individual differences specified in each persona. Counter-intuitively, \textbf{the models achieving the highest per-persona fidelity consistently produce the most stereotyped populations}. We release our toolkit and data to support population-level evaluation of LLMs.