Shaping Shared Languages: Human and Large Language Models' Inductive Biases in Emergent Communication

📄 arXiv: 2503.04395v2 📥 PDF

作者: Tom Kouwenhoven, Max Peeperkorn, Roy de Kleijn, Tessa Verhoef

分类: cs.CL

发布日期: 2025-03-06 (更新: 2025-05-28)

备注: Presented at IJCAI 2025 (Human-centred AI Track)


💡 一句话要点

通过人与大语言模型交互,探索涌现语言中归纳偏置的影响,促进人机对齐。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 涌现语言 归纳偏置 人机交互 大型语言模型 指称游戏

📋 核心要点

  1. 现有研究较少关注人类与LLM共同塑造语言时,各自归纳偏置的影响,以及如何促进人机语言对齐。
  2. 本研究通过指称游戏,让人类和LLM交互,观察涌现语言的特性,并分析不同交互模式下的归纳偏置差异。
  3. 实验表明,人与LLM交互能缓解语言差异,产生更接近人类语言的词汇表,验证了交互式训练的有效性。

📝 摘要(中文)

语言的形成受到其使用者归纳偏置的影响。本研究通过经典的指称游戏,探讨了当人工语言针对人类和大型语言模型(LLM)的归纳偏置进行优化时,语言如何演变。实验包括人-人、LLM-LLM和人-LLM三种交互模式。结果表明,在所有条件下,都涌现出具有指称基础的词汇表,从而实现可靠的通信,即使在人类和LLM协作时也是如此。不同条件之间的比较表明,针对LLM优化的语言与针对人类优化的语言略有不同。有趣的是,人与LLM之间的交互缓解了这些差异,并产生了比LLM更像人类的词汇表。这些发现加深了我们对LLM中归纳偏置在人类语言动态本质中所扮演角色的理解,并有助于保持人机通信的对齐。特别是,我们的工作强调需要考虑包含人类交互的新型LLM训练方法,并表明使用通信成功作为奖励信号可能是一个富有成效的新方向。

🔬 方法详解

问题定义:论文旨在研究人类和大型语言模型(LLM)在共同创造语言时,各自的归纳偏置如何影响涌现语言的特性。现有方法通常独立研究人类或LLM的语言学习,缺乏对人机协作场景下语言演变的深入理解,以及如何促进人机语言对齐。

核心思路:论文的核心思路是通过指称游戏(referential game)模拟语言的产生和演化过程。通过让人类、LLM以及人-LLM组合进行交互,观察在不同交互模式下涌现的语言,并分析这些语言的特性差异,从而推断不同参与者的归纳偏置对语言的影响。这种方法允许研究者直接观察语言的形成过程,并量化不同因素的影响。

技术框架:整体框架包括三个主要实验设置:人-人交互、LLM-LLM交互和人-LLM交互。在每个设置中,参与者通过指称游戏进行通信,目标是让发送者(sender)通过发送消息,使接收者(receiver)从一组候选对象中选择出目标对象。通过多轮交互,参与者逐渐形成共享的词汇表。研究者分析这些词汇表的统计特性,例如词汇量、信息熵等,以比较不同设置下的语言差异。

关键创新:该研究的关键创新在于同时考虑了人类和LLM的归纳偏置,并研究了它们在语言演化中的相互作用。以往的研究通常只关注单一主体的语言学习,而忽略了人机协作的复杂性。此外,该研究强调了人机交互在促进语言对齐中的作用,并提出了将通信成功作为LLM训练奖励信号的新思路。

关键设计:指称游戏的具体设计包括:一组预定义的对象(例如,不同颜色和形状的图形),发送者和接收者之间的通信信道(例如,文本消息),以及一个奖励机制(例如,成功选择目标对象后获得奖励)。LLM的具体选择和配置(例如,使用的模型架构、训练数据等)以及人类参与者的招募和指导也是关键的设计因素。损失函数主要体现在奖励机制上,鼓励参与者形成更有效的沟通策略。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,在所有条件下,都涌现出具有指称基础的词汇表,实现了可靠的通信。人-LLM交互产生的词汇表比LLM-LLM交互更接近人类语言,表明人机交互可以有效缓解语言差异。这些发现为设计更有效的人机通信系统提供了重要依据。

🎯 应用场景

该研究成果可应用于改善人机交互界面,设计更自然、高效的人机对话系统。通过理解LLM的归纳偏置,可以开发更符合人类习惯的LLM,从而提高人机协作效率。此外,该研究也为开发新型LLM训练方法提供了思路,例如,通过人机交互式训练,使LLM更好地理解人类意图。

📄 摘要(原文)

Languages are shaped by the inductive biases of their users. Using a classical referential game, we investigate how artificial languages evolve when optimised for inductive biases in humans and large language models (LLMs) via Human-Human, LLM-LLM and Human-LLM experiments. We show that referentially grounded vocabularies emerge that enable reliable communication in all conditions, even when humans \textit{and} LLMs collaborate. Comparisons between conditions reveal that languages optimised for LLMs subtly differ from those optimised for humans. Interestingly, interactions between humans and LLMs alleviate these differences and result in vocabularies more human-like than LLM-like. These findings advance our understanding of the role inductive biases in LLMs play in the dynamic nature of human language and contribute to maintaining alignment in human and machine communication. In particular, our work underscores the need to think of new LLM training methods that include human interaction and shows that using communicative success as a reward signal can be a fruitful, novel direction.