When LLMs Play the Telephone Game: Cultural Attractors as Conceptual Tools to Evaluate LLMs in Multi-turn Settings

📄 arXiv: 2407.04503v3 📥 PDF

作者: Jérémy Perez, Grgur Kovač, Corentin Léger, Cédric Colas, Gaia Molinaro, Maxime Derex, Pierre-Yves Oudeyer, Clément Moulin-Frier

分类: physics.soc-ph, cs.AI, cs.MA

发布日期: 2024-07-05 (更新: 2025-06-02)

备注: Code available at https://github.com/jeremyperez2/TelephoneGameLLM. Companion website with a Data Explorer tool at https://sites.google.com/view/telephone-game-llm


💡 一句话要点

利用“传话游戏”和文化吸引子评估多轮交互中大型语言模型的演化

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 多轮交互 传话游戏 文化吸引子 信息演化

📋 核心要点

  1. 现有研究忽略了LLM多轮交互中信息传递的偏差累积和集体行为演化。
  2. 该研究借鉴文化进化中的“传话游戏”范式,分析LLM迭代交互中的信息演变。
  3. 实验揭示了LLM交互中存在的偏差和吸引子,并分析了其对多种因素的依赖性。

📝 摘要(中文)

随着大型语言模型(LLMs)开始相互交互并在线生成越来越多的文本,更好地理解信息在LLM之间传递时的转换方式至关重要。虽然大量研究已经检查了个体LLM的行为,但现有研究在很大程度上忽略了迭代LLM交互产生的集体行为和信息失真。在单次输出层面可以忽略不计的小偏差,在迭代交互中可能会被放大,从而可能导致内容朝着吸引子状态演变。在一系列传话游戏实验中,我们应用了从人类文化进化文献中借鉴的传输链设计:LLM代理迭代地接收、产生和传输来自链中前一个代理的文本。通过跟踪文本毒性、积极性、难度和长度在传输链中的演变,我们发现了偏差和吸引子的存在,并研究了它们对初始文本、指令、语言模型和模型大小的依赖性。例如,我们发现与更受约束的任务相比,更开放的指令会导致更强的吸引效应。我们还发现,不同的文本属性对吸引效应表现出不同的敏感性,毒性比长度导致更强的吸引子。这些发现强调了考虑多步传输动态的重要性,并代表了朝着更全面地理解LLM文化动态迈出的第一步。

🔬 方法详解

问题定义:论文旨在研究在多轮交互中,信息如何在大型语言模型(LLMs)之间传递和演变。现有方法主要关注单个LLM的行为,忽略了多个LLM迭代交互时可能出现的偏差累积和信息失真,这些失真可能导致信息朝着特定的“吸引子”状态演化。

核心思路:论文借鉴了人类文化进化研究中的“传话游戏”(Telephone Game)范式,模拟信息在LLM之间的迭代传递过程。通过观察文本在多轮传递中的变化,研究者可以识别LLM交互中存在的偏差和“吸引子”,并分析它们对不同因素的依赖性。这种方法能够揭示LLM交互的集体行为和信息演化规律。

技术框架:该研究采用传输链设计,其中每个LLM代理接收来自前一个代理的文本,然后生成新的文本传递给下一个代理。整个流程模拟了信息在人群中的传播过程。研究者通过跟踪文本的多个属性(如毒性、积极性、难度和长度)在传输链中的变化,来分析信息的演化趋势。实验中,研究者控制了初始文本、指令、语言模型和模型大小等因素,以研究它们对信息演化的影响。

关键创新:该研究的关键创新在于将文化进化研究中的“传话游戏”范式应用于LLM研究,从而能够研究LLM交互的集体行为和信息演化。与以往关注单个LLM行为的研究不同,该研究关注的是信息在多个LLM之间的传递和演变过程,揭示了LLM交互中可能存在的偏差和“吸引子”。

关键设计:实验设计中,指令的开放程度是一个关键参数。研究发现,更开放的指令会导致更强的吸引效应。此外,研究者还分析了不同文本属性对吸引效应的敏感性,发现毒性比长度更容易受到吸引效应的影响。研究中使用了多种语言模型和不同大小的模型,以研究模型对信息演化的影响。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在多轮交互中存在明显的偏差和吸引子效应。更开放的指令会增强吸引效应,而毒性等文本属性比长度更容易受到吸引效应的影响。不同大小的模型和不同的初始文本也会影响信息的演化轨迹。这些发现揭示了LLM交互的复杂性,并为改进LLM系统提供了重要启示。

🎯 应用场景

该研究成果可应用于评估和改进LLM在多轮对话、内容生成和在线社区等场景中的表现。通过理解LLM交互中的偏差和吸引子,可以设计更鲁棒、更可控的LLM系统,减少有害信息传播,并促进更积极、更有益的在线互动。

📄 摘要(原文)

As large language models (LLMs) start interacting with each other and generating an increasing amount of text online, it becomes crucial to better understand how information is transformed as it passes from one LLM to the next. While significant research has examined individual LLM behaviors, existing studies have largely overlooked the collective behaviors and information distortions arising from iterated LLM interactions. Small biases, negligible at the single output level, risk being amplified in iterated interactions, potentially leading the content to evolve towards attractor states. In a series of telephone game experiments, we apply a transmission chain design borrowed from the human cultural evolution literature: LLM agents iteratively receive, produce, and transmit texts from the previous to the next agent in the chain. By tracking the evolution of text toxicity, positivity, difficulty, and length across transmission chains, we uncover the existence of biases and attractors, and study their dependence on the initial text, the instructions, language model, and model size. For instance, we find that more open-ended instructions lead to stronger attraction effects compared to more constrained tasks. We also find that different text properties display different sensitivity to attraction effects, with toxicity leading to stronger attractors than length. These findings highlight the importance of accounting for multi-step transmission dynamics and represent a first step towards a more comprehensive understanding of LLM cultural dynamics.