One fish, two fish, but not the whole sea: Alignment reduces language models' conceptual diversity

📄 arXiv: 2411.04427v3 📥 PDF

作者: Sonia K. Murthy, Tomer Ullman, Jennifer Hu

分类: cs.CL

发布日期: 2024-11-07 (更新: 2025-07-07)

备注: 17 pages, 10 figures; updated with publishing information

期刊: Proceedings of the 2025 Conference of the Nations of the Americas Chapter of the Association for Computational Linguistics: Human Language Technologies (Volume 1: Long Papers)

DOI: 10.18653/v1/2025.naacl-long.561


💡 一句话要点

对齐降低了语言模型概念多样性:一项基于人类行为数据的LLM群体研究

🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 概念多样性 后训练对齐 RLHF RLAIF 行为研究 群体智能

📋 核心要点

  1. 现有研究缺乏对LLM群体概念多样性的有效评估方法,尤其是在与人类行为数据对比时。
  2. 该论文提出了一种新颖的LLM群体概念多样性度量方法,通过关联个体内部变异性和群体层面变异性。
  3. 实验表明,对齐后的LLM在概念多样性方面低于未对齐的模型,揭示了对齐可能带来的负面影响。

📝 摘要(中文)

社会科学和心理学领域的研究人员最近提出使用大型语言模型(LLM)来替代人类进行行为研究。除了LLM是否准确捕捉到群体层面模式的争论外,这也引发了关于LLM是否能捕捉到类似人类的概念多样性的问题。此外,后训练对齐(RLHF或RLAIF)是否会影响模型内部多样性也存在争议。受人类研究的启发,我们通过将模拟个体的内部变异性与群体层面的变异性联系起来,提出了一种新的方法来衡量合成生成的LLM“群体”的概念多样性。我们使用这种方法在两个具有丰富人类行为数据的领域中评估了非对齐和对齐的LLM。虽然没有模型达到类似人类的多样性,但对齐的模型通常比其指令微调的对应模型显示出更少的多样性。我们的研究结果突出了提高模型价值对齐和降低其概念表示多样性之间可能存在的权衡。

🔬 方法详解

问题定义:该论文旨在研究大型语言模型(LLM)在模拟人类行为研究中,其“群体”的概念多样性是否与人类相似,以及后训练对齐(如RLHF/RLAIF)是否会影响这种多样性。现有方法缺乏有效评估LLM群体概念多样性的手段,尤其是在与人类行为数据进行对比时,难以量化对齐对模型内部多样性的影响。

核心思路:论文的核心思路是借鉴人类研究中衡量群体多样性的方法,将LLM视为一个“群体”,并通过分析模拟个体(即LLM的不同生成结果)的内部变异性与整个“群体”层面的变异性之间的关系,来评估LLM的概念多样性。这种方法能够更细致地刻画LLM在概念表达上的丰富程度。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 使用非对齐和对齐的LLM生成一系列文本输出,模拟“个体”的行为;2) 针对特定领域(论文中使用了两个领域,具有丰富的人类行为数据)设计实验任务,例如概念生成或问题回答;3) 使用提出的方法计算LLM“群体”的概念多样性,该方法基于个体内部变异性和群体层面变异性的关联;4) 将LLM的概念多样性与人类数据进行比较,评估LLM在概念表达上的能力,并分析对齐对多样性的影响。

关键创新:该论文的关键创新在于提出了一种新的、受人类研究启发的LLM概念多样性度量方法。该方法不同于以往直接比较LLM输出结果的相似性,而是关注个体内部变异性和群体层面变异性的关系,从而更准确地反映LLM在概念表达上的丰富程度。此外,该研究还首次系统地评估了后训练对齐对LLM概念多样性的影响。

关键设计:论文的关键设计包括:1) 选择具有丰富人类行为数据的领域,以便进行有效的对比;2) 精心设计实验任务,确保能够充分激发LLM的概念表达能力;3) 使用合适的统计方法来计算个体内部变异性和群体层面变异性,并建立它们之间的关联;4) 对比不同对齐策略(如有)对概念多样性的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,虽然所有被评估的LLM都未能达到人类水平的概念多样性,但经过对齐的模型通常比未经对齐的模型表现出更低的多样性。这表明,在提高模型价值对齐的同时,可能会牺牲其概念表示的多样性。该发现强调了在LLM开发中需要权衡对齐和多样性之间的关系。

🎯 应用场景

该研究成果可应用于评估和改进大型语言模型在模拟人类行为研究中的可靠性。通过理解对齐对模型概念多样性的影响,可以更好地设计对齐策略,避免过度约束模型的创造性和探索能力。此外,该方法还可以用于评估不同LLM在特定领域的知识覆盖度和泛化能力,为LLM的应用提供更全面的评估。

📄 摘要(原文)

Researchers in social science and psychology have recently proposed using large language models (LLMs) as replacements for humans in behavioral research. In addition to arguments about whether LLMs accurately capture population-level patterns, this has raised questions about whether LLMs capture human-like conceptual diversity. Separately, it is debated whether post-training alignment (RLHF or RLAIF) affects models' internal diversity. Inspired by human studies, we use a new way of measuring the conceptual diversity of synthetically-generated LLM "populations" by relating the internal variability of simulated individuals to the population-level variability. We use this approach to evaluate non-aligned and aligned LLMs on two domains with rich human behavioral data. While no model reaches human-like diversity, aligned models generally display less diversity than their instruction fine-tuned counterparts. Our findings highlight potential trade-offs between increasing models' value alignment and decreasing the diversity of their conceptual representations.