Empirical evidence of Large Language Model's influence on human spoken communication

📄 arXiv: 2409.01754v3 📥 PDF

作者: Hiromu Yakura, Ezequiel Lopez-Lopez, Levin Brinkmann, Ignacio Serna, Prateek Gupta, Ivan Soraperra, Iyad Rahwan

分类: cs.CY, cs.AI, cs.CL, cs.HC

发布日期: 2024-09-03 (更新: 2025-07-08)


💡 一句话要点

大型语言模型显著影响人类口语交流:证据来自YouTube和播客

🎯 匹配领域: 支柱一:机器人控制 (Robot Control) 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 文化影响 口语交流 计量经济学 因果推断

📋 核心要点

  1. 现有研究缺乏对大型语言模型(LLM)如何影响人类口语交流的量化分析,难以评估其文化影响。
  2. 该研究利用计量经济学因果推断技术,分析了ChatGPT发布前后人类口语中特定词汇使用频率的变化。
  3. 实验结果表明,ChatGPT发布后,人类口语中ChatGPT偏好词汇的使用频率显著增加,揭示了LLM对人类文化的潜在影响。

📝 摘要(中文)

从书写和印刷术的发明,到电视和社交媒体的出现,人类历史不断被重大的通信技术创新所影响,这些创新从根本上改变了思想的传播方式并重塑了我们的文化。最近由生成式人工智能驱动的聊天机器人构成了一种新的媒介,它们将文化模式编码到其神经表征中,并在与数百万人的对话中传播这些模式。理解这些模式是否会传递到人类语言中,并最终塑造人类文化,是一个根本性的问题。虽然完全量化像ChatGPT这样的聊天机器人对人类文化的因果影响非常具有挑战性,但人类口语交流中的词汇变化可能提供这种广泛现象的早期指标。在此,我们对来自360,445个YouTube学术讲座和771,591个对话播客节目的740,249小时的人类话语应用了计量经济学因果推断技术。我们发现,在ChatGPT发布后,人类对ChatGPT优先生成的词语(如delve、comprehend、boast、swift和meticulous)的使用出现了可测量且突然的增加。这些发现表明,最初在人类数据上训练,随后表现出自身文化特征的机器,反过来可以显著地重塑人类文化。这标志着一个闭环文化反馈的开始,其中文化特征在人类和机器之间双向循环。我们的结果激发了对人机文化演变的进一步研究,并引发了对语言和文化多样性侵蚀以及可扩展操纵风险的担忧。

🔬 方法详解

问题定义:该论文旨在研究大型语言模型(LLM),特别是ChatGPT,对人类口语交流的影响。现有方法难以量化LLM对人类文化的潜在影响,缺乏对人类语言使用习惯变化的有效监测手段。因此,需要一种方法来检测LLM是否以及如何在人类口语中留下可测量的痕迹。

核心思路:该论文的核心思路是,通过分析ChatGPT发布前后人类口语中特定词汇使用频率的变化,来推断LLM对人类语言习惯的影响。如果ChatGPT偏好使用的词汇在人类口语中出现频率显著增加,则可以认为LLM正在影响人类的语言表达。这种思路基于LLM会将训练数据中的文化模式编码到其神经表征中,并在与人类的交互中传播这些模式。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 数据收集:收集ChatGPT发布前后的大量人类口语数据,包括YouTube学术讲座和播客节目。2) 词汇选择:确定ChatGPT偏好使用的词汇,例如通过分析ChatGPT生成的文本。3) 频率分析:统计ChatGPT发布前后,这些词汇在人类口语数据中的使用频率。4) 因果推断:使用计量经济学方法,例如断点回归设计,来评估ChatGPT发布对这些词汇使用频率的因果影响。

关键创新:该研究的关键创新在于:1) 利用计量经济学方法来研究LLM对人类文化的影响,提供了一种量化分析的框架。2) 通过分析人类口语中特定词汇使用频率的变化,提供了一种检测LLM文化影响的早期指标。3) 揭示了LLM可能正在以一种可测量的方式重塑人类文化,引发了对人机文化演变的进一步思考。

关键设计:该研究的关键设计包括:1) 选择YouTube学术讲座和播客节目作为人类口语数据来源,保证了数据的多样性和代表性。2) 使用断点回归设计来评估ChatGPT发布对词汇使用频率的因果影响,控制了其他潜在的混淆因素。3) 关注ChatGPT偏好使用的词汇,例如delve、comprehend、boast、swift和meticulous,这些词汇在ChatGPT生成文本中出现频率较高。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

研究发现,在ChatGPT发布后,人类口语中ChatGPT偏好使用的词汇(如delve、comprehend、boast、swift和meticulous)的使用频率出现了可测量且突然的增加。这一结果表明,大型语言模型正在以一种可量化的方式影响人类的语言表达习惯。

🎯 应用场景

该研究成果可应用于监测和评估人工智能技术对人类文化和社会的影响。通过分析语言使用习惯的变化,可以更早地发现潜在的文化侵蚀、信息操纵等风险。此外,该研究也为设计更负责任、更符合伦理规范的人工智能系统提供了参考。

📄 摘要(原文)

From the invention of writing and the printing press, to television and social media, human history is punctuated by major innovations in communication technology, which fundamentally altered how ideas spread and reshaped our culture. Recent chatbots powered by generative artificial intelligence constitute a novel medium that encodes cultural patterns in their neural representations and disseminates them in conversations with hundreds of millions of people. Understanding whether these patterns transmit into human language, and ultimately shape human culture, is a fundamental question. While fully quantifying the causal impact of a chatbot like ChatGPT on human culture is very challenging, lexicographic shift in human spoken communication may offer an early indicator of such broad phenomenon. Here, we apply econometric causal inference techniques to 740,249 hours of human discourse from 360,445 YouTube academic talks and 771,591 conversational podcast episodes across multiple disciplines. We detect a measurable and abrupt increase in the use of words preferentially generated by ChatGPT, such as delve, comprehend, boast, swift, and meticulous, after its release. These findings suggest a scenario where machines, originally trained on human data and subsequently exhibiting their own cultural traits, can, in turn, measurably reshape human culture. This marks the beginning of a closed cultural feedback loop in which cultural traits circulate bidirectionally between humans and machines. Our results motivate further research into the evolution of human-machine culture, and raise concerns over the erosion of linguistic and cultural diversity, and the risks of scalable manipulation.