Emergent LLM behaviors are observationally equivalent to data leakage

📄 arXiv: 2505.23796v1 📥 PDF

作者: Christopher Barrie, Petter Törnberg

分类: cs.CL, cs.GT

发布日期: 2025-05-26


💡 一句话要点

大型语言模型涌现行为的解释:数据泄露而非社会规范

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据泄露 涌现行为 命名游戏 社会规范 预训练数据 模型评估

📋 核心要点

  1. 现有研究声称大型语言模型在“命名游戏”中涌现出社会规范,但缺乏对数据泄露的充分考量。
  2. 本文提出,LLM在命名游戏中表现出的“涌现”行为,实际上是模型记忆了预训练数据中的相关信息。
  3. 通过多项分析,论文证明LLM能够识别游戏结构并回忆结果,其行为与记忆训练语料库无法区分。

📝 摘要(中文)

Ashery等人近期提出,当大型语言模型(LLM)配对进行经典的“命名游戏”时,会自发地发展出类似于人类社会规范的语言惯例。本文表明,数据泄露能更好地解释他们的结果:模型只是重现了在预训练期间已经遇到的惯例。尽管作者采取了缓解措施,我们提供了多项分析,表明LLM识别了协调游戏的结构并回忆起其结果,而不是表现出“涌现”的惯例。因此,观察到的行为与训练语料库的记忆无法区分。最后,我们指出了潜在的替代策略,并更普遍地反思了LLM在社会科学模型中的地位。

🔬 方法详解

问题定义:Ashery等人的研究声称大型语言模型(LLM)在进行“命名游戏”时,能够涌现出类似人类社会规范的语言惯例。然而,该研究可能忽略了LLM在预训练阶段已经接触过类似的语言惯例,从而导致模型并非真正“涌现”出新的规范,而是简单地回忆和复现了已有的知识。现有方法的痛点在于无法区分LLM的涌现行为和数据泄露。

核心思路:本文的核心思路是,通过分析LLM在“命名游戏”中的行为,证明其表现更符合数据泄露的特征,而非涌现出新的社会规范。这意味着LLM的行为并非源于其自身的推理和创造能力,而是源于对训练数据的记忆和复现。通过设计实验和分析方法,来验证LLM是否仅仅是在回忆训练数据中已经存在的模式。

技术框架:论文主要通过以下步骤进行分析:1) 重现Ashery等人的实验设置,观察LLM在“命名游戏”中的表现。2) 设计实验来测试LLM是否能够识别游戏的结构并回忆起游戏的结果。3) 分析LLM的输出,判断其行为是否与训练语料库的记忆相符。4) 提出潜在的替代策略,用于更准确地评估LLM的涌现能力。

关键创新:本文最重要的技术创新点在于,提出了数据泄露是LLM在“命名游戏”中表现出“涌现”行为的更合理的解释。与现有研究认为LLM能够自发地发展出社会规范不同,本文强调了LLM对训练数据的依赖性,并指出其行为可能仅仅是对已有知识的记忆和复现。这种观点挑战了对LLM涌现能力的传统认知。

关键设计:论文的关键设计包括:1) 精心设计的实验,用于区分LLM的涌现行为和数据泄露。例如,通过改变游戏规则或引入新的概念,来测试LLM是否能够适应新的环境。2) 对LLM输出的深入分析,用于识别其行为模式和知识来源。例如,通过分析LLM生成的文本,来判断其是否与训练数据中的特定文本片段相似。3) 提出了评估LLM涌现能力的替代策略,例如使用更严格的控制变量和更复杂的实验设计。

🖼️ 关键图片

fig_0

📊 实验亮点

论文通过多项分析证明,LLM在“命名游戏”中的行为与记忆训练语料库无法区分,表明其表现更符合数据泄露的特征,而非涌现出新的社会规范。尽管作者尝试缓解数据泄露的影响,但实验结果仍然支持数据泄露的解释。这些发现挑战了对LLM涌现能力的传统认知。

🎯 应用场景

该研究成果对理解大型语言模型的行为机制具有重要意义,有助于更准确地评估其能力边界。在社会科学建模中,应谨慎使用LLM,避免将其涌现行为误解为真实的社会现象。此外,该研究也为设计更有效的LLM评估方法提供了思路,促进了人工智能研究的健康发展。

📄 摘要(原文)

Ashery et al. recently argue that large language models (LLMs), when paired to play a classic "naming game," spontaneously develop linguistic conventions reminiscent of human social norms. Here, we show that their results are better explained by data leakage: the models simply reproduce conventions they already encountered during pre-training. Despite the authors' mitigation measures, we provide multiple analyses demonstrating that the LLMs recognize the structure of the coordination game and recall its outcomes, rather than exhibit "emergent" conventions. Consequently, the observed behaviors are indistinguishable from memorization of the training corpus. We conclude by pointing to potential alternative strategies and reflecting more generally on the place of LLMs for social science models.