Large Language Models show both individual and collective creativity comparable to humans

📄 arXiv: 2412.03151v1 📥 PDF

作者: Luning Sun, Yuzhuo Yuan, Yuan Yao, Yanyan Li, Hao Zhang, Xing Xie, Xiting Wang, Fang Luo, David Stillwell

分类: cs.AI

发布日期: 2024-12-04

DOI: 10.1016/j.tsc.2025.101870


💡 一句话要点

大型语言模型在个体和集体创造力上均可与人类媲美

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 创造力评估 发散性思维 问题解决 创意写作 集体创造力 人机对比

📋 核心要点

  1. 现有方法难以全面评估大型语言模型在创造力方面的能力,缺乏与人类个体和群体的直接对比。
  2. 论文核心思想是将LLM与人类个体和群体在多个创造性任务上进行对比,评估其创造力水平和优势。
  3. 实验结果表明,最佳LLM在创造力方面可达到人类的52%水平,尤其擅长发散性思维和问题解决。

📝 摘要(中文)

人工智能目前主要自动化了常规任务,但如果大型语言模型(LLM)展现出与人类相当的创造力,这对未来的工作意味着什么?为了全面衡量LLM的创造力,本研究使用了涵盖三个领域的13项创造性任务。我们将LLM与个体人类进行基准测试,并采用一种新颖的方法,将它们与人类群体的集体创造力进行比较。我们发现,最好的LLM(Claude和GPT-4)的排名相当于人类的第52个百分位,总体而言,LLM在发散性思维和问题解决方面表现出色,但在创意写作方面落后。当被提问10次时,LLM的集体创造力相当于8-10个人类。当请求更多响应时,LLM的额外两个响应相当于一个额外的人类。最终,LLM在得到优化应用后,未来可能在工作中与一小群人类竞争。

🔬 方法详解

问题定义:论文旨在评估大型语言模型(LLM)在创造力方面的表现,并将其与人类的创造力进行比较。现有方法通常关注LLM在特定任务上的性能,缺乏对LLM创造力的全面评估,也缺乏与人类个体和群体创造力的直接对比,难以判断LLM在创造性任务中是否能真正与人类竞争。

核心思路:论文的核心思路是通过设计一系列创造性任务,涵盖不同领域和类型,全面评估LLM的创造力。同时,将LLM的性能与人类个体和群体的性能进行对比,从而更客观地评估LLM的创造力水平。此外,论文还研究了LLM的“集体创造力”,即通过多次提问LLM并整合其答案,来模拟人类群体的集体智慧。

技术框架:论文的技术框架主要包括以下几个部分: 1. 任务设计:设计13个创造性任务,涵盖三个领域(未知,摘要中未明确说明),包括发散性思维、问题解决和创意写作等。 2. 模型选择:选择多个LLM(包括Claude和GPT-4)作为评估对象。 3. 人类基准:招募人类参与者,完成相同的创造性任务,作为LLM的性能基准。 4. 评估指标:使用合适的评估指标来衡量LLM和人类在每个任务上的表现。 5. 统计分析:对收集到的数据进行统计分析,比较LLM和人类的创造力水平。

关键创新:论文的关键创新在于: 1. 全面的创造力评估:设计了涵盖多个领域和类型的创造性任务,从而更全面地评估LLM的创造力。 2. 与人类群体的对比:将LLM的性能与人类群体的性能进行对比,从而更客观地评估LLM的创造力水平。 3. 集体创造力研究:研究了LLM的“集体创造力”,探索了通过多次提问LLM来提高其创造力的方法。

关键设计:论文的关键设计包括: 1. 任务选择:选择具有代表性的创造性任务,能够有效区分LLM和人类的创造力水平。(具体任务细节未知) 2. 评估指标:选择合适的评估指标,能够准确衡量LLM和人类在每个任务上的表现。(具体评估指标未知) 3. 实验设置:控制实验变量,确保实验结果的可靠性和有效性。(具体实验设置未知)

📊 实验亮点

实验结果表明,最佳的LLM(Claude和GPT-4)在创造力方面可以达到人类的第52个百分位。LLM在发散性思维和问题解决方面表现出色,但在创意写作方面相对落后。当被提问10次时,LLM的集体创造力相当于8-10个人类。当请求更多响应时,LLM的额外两个响应相当于一个额外的人类。这些结果表明,LLM在特定创造性任务中具有与人类竞争的潜力。

🎯 应用场景

该研究成果可应用于多个领域,例如:创意内容生成(广告文案、剧本创作)、问题解决(科学研究、工程设计)、教育(辅助教学、个性化学习)等。通过优化LLM的应用,可以提高工作效率,降低成本,并为人类提供新的创意灵感。未来,LLM有望在更多创造性领域发挥重要作用,甚至可能改变人类的工作方式。

📄 摘要(原文)

Artificial intelligence has, so far, largely automated routine tasks, but what does it mean for the future of work if Large Language Models (LLMs) show creativity comparable to humans? To measure the creativity of LLMs holistically, the current study uses 13 creative tasks spanning three domains. We benchmark the LLMs against individual humans, and also take a novel approach by comparing them to the collective creativity of groups of humans. We find that the best LLMs (Claude and GPT-4) rank in the 52nd percentile against humans, and overall LLMs excel in divergent thinking and problem solving but lag in creative writing. When questioned 10 times, an LLM's collective creativity is equivalent to 8-10 humans. When more responses are requested, two additional responses of LLMs equal one extra human. Ultimately, LLMs, when optimally applied, may compete with a small group of humans in the future of work.