Assessing the Creativity of Large Language Models: Testing, Limits, and New Frontiers

📄 arXiv: 2605.13450v1 📥 PDF

作者: Samuel Schapiro, Alexi Gladstone, Jonah Black, Heng Ji

分类: cs.AI, cs.CL, cs.HC

发布日期: 2026-05-13

备注: 36 pages. Extended version of work under review


💡 一句话要点

评估大语言模型创造力:测试、局限与新方向,提出DRAT有效预测科学构思能力

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 创造力评估 发散性思维 收敛性思维 科学构思 DRAT 人工智能

📋 核心要点

  1. 现有的人类创造力测试在评估LLM创造力方面存在有效性问题,尤其是在预测科学构思能力方面。
  2. 论文提出发散远程联想测试(DRAT),旨在同时评估LLM的收敛性和发散性思维,以更准确地预测其创造力。
  3. 实验表明,DRAT是首个能有效预测LLM科学构思能力的创造力测试,优于现有测试的线性组合。

📝 摘要(中文)

评估大语言模型(LLMs)的创造力对于设计能够提升创造力的方法以及加深我们对这种能力的科学理解至关重要。近年来,一种常见做法是将人类创造力测试应用于LLMs。尽管这些测试提供了一种方便且完全自动化的“创造力”评分方式,但它们作为机器创造力衡量标准的有效性尚未得到证实,并且这些测试作为人类创造力预测指标的有效性也有限。为了解决这个问题,我们进行了首次大规模、系统的研究,评估人类创造力测试在预测LLMs在三个目标结构(创造性写作、发散性思维和科学构思)方面的创造性成就的有效性。我们发现发散联想任务(DAT)和条件DAT分别是创造性写作和发散性思维的最佳预测指标,但测试有效性因结构而异,没有单一测试能够很好地预测所有结构。此外,与普遍看法相反,没有现有测试能够可靠地预测科学构思能力。受此问题驱动,我们引入了发散远程联想测试(DRAT),这是一种词汇空间测试,可在单个工具中评估收敛性和发散性思维。DRAT是第一个也是唯一一个能够显著预测科学构思能力的LLM创造力测试,并在主要设计选择中表现出稳健性。此外,DRAT的性能提升无法通过发散联想任务和远程联想测试的任何线性组合来恢复,这表明在同一测试中评估发散性和收敛性思维对于可靠地预测科学构思能力至关重要。

🔬 方法详解

问题定义:现有的人类创造力测试,如发散联想任务(DAT)和远程联想测试(RAT),在评估大型语言模型(LLMs)的创造力时存在局限性。尤其是在预测LLMs的科学构思能力方面,这些测试表现不佳。这些测试最初是为人类设计的,可能无法捕捉到LLMs创造性思维的独特方面。因此,需要一种更适合评估LLMs创造力的测试方法。

核心思路:论文的核心思路是设计一种新的创造力测试,即发散远程联想测试(DRAT),该测试能够同时评估LLMs的发散性思维和收敛性思维。DRAT通过要求LLMs生成与给定提示词相关的多个不同但相关的词语来评估发散性思维,并通过要求LLMs找到这些词语之间的共同联系来评估收敛性思维。这种设计旨在更全面地捕捉LLMs的创造性思维过程。

技术框架:DRAT测试的整体框架包括以下步骤:1) 给定一个提示词,LLM需要生成多个(例如,5个)与之相关的词语。2) LLM需要找到这些生成的词语之间的共同联系,并用一个词语来概括它们。3) 根据生成的词语的多样性和相关性,以及找到的共同联系的准确性和创造性,对LLM的创造力进行评分。该框架旨在模拟科学构思过程,其中需要发散性地产生多个想法,然后收敛性地找到这些想法之间的共同联系。

关键创新:DRAT的关键创新在于它将发散性思维和收敛性思维的评估整合到同一个测试中。现有的创造力测试通常只关注其中一个方面。DRAT的设计理念是,科学构思需要同时具备发散性地产生多个想法的能力,以及收敛性地找到这些想法之间共同联系的能力。因此,DRAT能够更准确地预测LLMs的科学构思能力。

关键设计:DRAT的关键设计包括:1) 提示词的选择:选择具有多个潜在关联的提示词,以鼓励LLMs产生多样化的想法。2) 生成词语的数量:设置适当的生成词语数量,以平衡发散性思维的广度和深度。3) 评分标准:设计合理的评分标准,以评估生成词语的多样性、相关性,以及找到的共同联系的准确性和创造性。4) 评估指标:使用诸如生成词语的语义距离、共同联系的语义相似度等指标来量化LLMs的创造力表现。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,DRAT是首个能够显著预测LLM科学构思能力的创造力测试。DRAT的性能优于现有的发散联想任务(DAT)和远程联想测试(RAT)的线性组合,表明同时评估发散性和收敛性思维对于预测科学构思能力至关重要。DRAT在不同的LLM架构和参数设置下表现出稳健性。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的创造力,尤其是在科学发现、创新设计等领域。通过使用DRAT等更有效的创造力测试,可以更好地了解LLM的创造性能力,并开发出更具创造力的AI系统。此外,该研究也为人类创造力评估提供了新的视角。

📄 摘要(原文)

Measuring the creativity of large language models (LLMs) is essential for designing methods that can improve creativity and for enhancing our scientific understanding of this ability. To accomplish this, it has become common in recent years to administer tests of human creativity to LLMs. Although these tests provide a convenient and fully automated way to score "creativity," their validity as measures of machine creativity has not been established, and these tests already have limited validity as predictors of human creativity. To address this problem, we conduct the first large-scale, systematic study assessing the effectiveness of human creativity tests for predicting the creative achievement of LLMs across three target constructs: creative writing, divergent thinking, and scientific ideation. We find that the Divergent Association Task (DAT) and the Conditional DAT are the best predictors of creative writing and divergent thinking, respectively, but that test effectiveness varies significantly by construct, and no single test predicts all constructs well. Moreover, contrary to popular belief, no existing test reliably predicts scientific ideation ability. Motivated by this problem, we introduce the Divergent Remote Association Test (DRAT), a vocabulary-space test that assesses both convergent and divergent thinking in a single instrument. The DRAT is the first and only creativity test for LLMs that is a significant predictor of scientific ideation ability, demonstrating robustness across major design choices. Furthermore, the performance gain of the DRAT is not recoverable from any linear combination of the Divergent Association Task and the Remote Associates Test, indicating that assessing divergent and convergent thinking in the same test is essential to reliably predicting scientific ideation ability.