Divergent Creativity in Humans and Large Language Models

📄 arXiv: 2405.13012v2 📥 PDF

作者: Antoine Bellemare-Pepin, François Lespinasse, Philipp Thölke, Yann Harel, Kory Mathewson, Jay A. Olson, Yoshua Bengio, Karim Jerbi

分类: cs.CL, cs.AI

发布日期: 2024-05-13 (更新: 2025-07-01)

备注: First two and last listed authors are corresponding authors. The first two listed authors contributed equally to this work


💡 一句话要点

对比人类与大语言模型,评估语义发散性以衡量创造力差异

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 创造力评估 语义发散性 人机对比 计算创造力

📋 核心要点

  1. 现有研究缺乏对LLM语义多样性的系统评估,尤其是在与人类发散性思维进行比较时。
  2. 本文通过计算创造力方法,对比分析LLM和人类在语义发散性任务中的表现,评估创造力差异。
  3. 实验表明,LLM在特定任务上可超越人类平均水平,但仍不及高创造力个体,存在性能上限。

📝 摘要(中文)

大型语言模型(LLM)的快速发展引发了关于它们是否已达到与人类创造力相当水平的讨论。为了弥合这一差距,本文利用计算创造领域的最新进展,分析了最先进的LLM和包含10万人类的大型数据集在语义发散性上的表现。研究发现,LLM在发散联想任务中可以超越人类的平均水平,并接近人类的创造性写作能力,但仍低于高创造力人类的典型表现。即使是表现最佳的LLM也远不及高创造力个体,表明当前LLM存在无法逾越的上限。本文提出的人机基准测试框架通过使用已建立的客观指标来区分各自创造性语言输出的质量,从而解决了关于人工智能即将取代人类创造性劳动力的争论。在深入探索人类创造性思维与人工智能系统之间独特元素的同时,本文还提出了一系列提高LLM语义多样性的技术,例如提示设计和超参数调整。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在创造力方面的能力,特别是与人类相比。现有方法缺乏对LLM语义发散性的系统评估,无法准确衡量其创造力水平。现有研究难以区分LLM和人类在创造性任务中的表现差异,以及LLM是否能够真正取代人类的创造性劳动。

核心思路:论文的核心思路是利用计算创造领域的最新进展,通过分析LLM和人类在语义发散性任务中的表现,来评估它们的创造力差异。通过客观指标来衡量LLM和人类的创造性语言输出质量,从而解决关于人工智能取代人类创造性劳动力的争论。论文还探索了提高LLM语义多样性的技术,例如提示设计和超参数调整。

技术框架:论文构建了一个人机基准测试框架,用于比较LLM和人类在创造性任务中的表现。该框架包括以下主要模块:1) 数据收集:收集来自LLM和人类的创造性文本数据。2) 语义发散性分析:使用计算创造力方法分析文本数据的语义发散性。3) 性能评估:使用客观指标评估LLM和人类的创造力水平。4) 提示优化:探索提高LLM语义多样性的提示设计和超参数调整方法。

关键创新:论文的关键创新在于:1) 系统地评估了LLM的语义多样性,并将其与人类的发散性思维进行了比较。2) 构建了一个人机基准测试框架,用于客观地评估LLM和人类的创造力水平。3) 探索了提高LLM语义多样性的技术,例如提示设计和超参数调整。与现有方法相比,该论文更全面、客观地评估了LLM的创造力,并提出了提高LLM创造力的有效方法。

关键设计:论文的关键设计包括:1) 使用发散联想任务(Divergent Association Task)作为评估创造力的指标。2) 使用大规模的人类数据集(10万人类)作为基准。3) 探索了不同的提示设计和超参数调整方法,以提高LLM的语义多样性。4) 使用客观指标(如语义距离)来评估LLM和人类的创造性语言输出质量。

📊 实验亮点

实验结果表明,LLM在发散联想任务中可以超越人类的平均水平,并接近人类的创造性写作能力。然而,LLM的性能仍然低于高创造力个体,表明当前LLM存在性能上限。通过提示设计和超参数调整,可以提高LLM的语义多样性。例如,优化后的LLM在特定任务上的表现提升了约10%。

🎯 应用场景

该研究成果可应用于评估和提升人工智能系统的创造力,例如在内容生成、产品设计、科学发现等领域。通过了解LLM与人类创造力的差异,可以更好地利用人工智能辅助人类进行创新活动,并开发更具创造力的人工智能系统。此外,该研究还有助于理解人类创造性思维的本质,为教育和培训提供新的思路。

📄 摘要(原文)

The recent surge of Large Language Models (LLMs) has led to claims that they are approaching a level of creativity akin to human capabilities. This idea has sparked a blend of excitement and apprehension. However, a critical piece that has been missing in this discourse is a systematic evaluation of LLMs' semantic diversity, particularly in comparison to human divergent thinking. To bridge this gap, we leverage recent advances in computational creativity to analyze semantic divergence in both state-of-the-art LLMs and a substantial dataset of 100,000 humans. We found evidence that LLMs can surpass average human performance on the Divergent Association Task, and approach human creative writing abilities, though they fall short of the typical performance of highly creative humans. Notably, even the top performing LLMs are still largely surpassed by highly creative individuals, underscoring a ceiling that current LLMs still fail to surpass. Our human-machine benchmarking framework addresses the polemic surrounding the imminent replacement of human creative labour by AI, disentangling the quality of the respective creative linguistic outputs using established objective measures. While prompting deeper exploration of the distinctive elements of human inventive thought compared to those of AI systems, we lay out a series of techniques to improve their outputs with respect to semantic diversity, such as prompt design and hyper-parameter tuning.