Has the Creativity of Large-Language Models peaked? An analysis of inter- and intra-LLM variability
作者: Jennifer Haase, Paul H. P. Hanel, Sebastian Pokutta
分类: cs.CL, cs.AI, cs.HC
发布日期: 2025-04-10
备注: 19 pages + Appendix, 13 figure
💡 一句话要点
大型语言模型创造力评估:模型间差异显著,模型内变异性高,创造力水平未见显著提升
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 创造力评估 发散思维 模型变异性 提示工程
📋 核心要点
- 现有研究表明LLM在创造性任务中可媲美甚至超越人类,但LLM的创造力是否随时间推移而提高尚不明确。
- 本研究通过DAT和AUT两种创造力评估任务,对比14个主流LLM的创造力表现,并分析模型间和模型内的差异。
- 实验发现LLM创造力并未显著提升,模型内变异性大,提示词选择影响显著,强调细致评估框架的重要性。
📝 摘要(中文)
本研究评估了14个广泛使用的大型语言模型(LLMs),包括GPT-4、Claude、Llama、Grok、Mistral和DeepSeek,在两个经过验证的创造力评估任务上的表现:发散联想任务(DAT)和替代用途任务(AUT)。研究结果表明,在过去的18-24个月里,LLMs的创造性表现没有明显提高,GPT-4的表现甚至比之前的研究更差。在更广泛使用的AUT任务中,所有模型的平均表现都优于普通人,其中GPT-4o和o3-mini表现最佳。然而,只有0.28%的LLM生成的回应达到了人类创造力基准的前10%。除了模型间的差异,研究还发现模型内存在显著的变异性:同一个LLM在给定相同提示的情况下,可以产生从低于平均水平到非常原创的输出。这种变异性对创造力研究和实际应用都有重要影响。忽略这种变异性可能会错误判断LLMs的创造潜力,高估或低估其能力。提示的选择对LLMs的影响也不同。研究结果强调了需要更细致的评估框架,并强调在使用生成式人工智能(GenAI)工具进行创造性工作时,模型选择、提示设计和重复评估的重要性。
🔬 方法详解
问题定义:论文旨在评估大型语言模型(LLMs)在创造性任务中的表现,并分析其创造力是否随着时间推移而提高。现有方法缺乏对LLM创造力随时间变化的系统性评估,并且忽略了模型内部变异性对评估结果的影响。此外,提示词的选择对LLM创造力的影响也缺乏深入研究。
核心思路:论文的核心思路是通过标准化的创造力评估任务(DAT和AUT)来量化LLMs的创造力水平,并分析不同模型之间的差异以及同一模型在不同运行中的变异性。通过控制提示词,研究评估了提示词选择对LLM创造力的影响。
技术框架:研究采用实验方法,选取14个广泛使用的LLMs,包括GPT-4、Claude、Llama等。使用DAT和AUT两种创造力评估任务,对每个模型进行多次运行,记录其输出结果。然后,使用标准化的评分方法对输出结果进行评估,得到每个模型的创造力得分。最后,对不同模型之间的得分进行比较,并分析同一模型在不同运行中的得分变异性。
关键创新:本研究的关键创新在于:1) 系统性地评估了LLMs在过去一段时间内的创造力变化趋势,发现创造力并未显著提升;2) 强调了模型内部变异性对LLM创造力评估的重要性,指出忽略这种变异性可能导致对LLM创造力的误判;3) 深入研究了提示词选择对LLM创造力的影响,为实际应用中选择合适的提示词提供了指导。
关键设计:研究的关键设计包括:1) 选择DAT和AUT作为创造力评估任务,这两种任务具有良好的信度和效度;2) 对每个模型进行多次运行,以减少随机性对评估结果的影响;3) 使用标准化的评分方法对输出结果进行评估,以保证评估结果的客观性和可比性;4) 控制提示词,研究提示词选择对LLM创造力的影响。
🖼️ 关键图片
📊 实验亮点
研究发现,在过去的18-24个月里,LLMs的创造性表现没有明显提高,GPT-4的表现甚至比之前的研究更差。在AUT任务中,所有模型的平均表现都优于普通人,但只有0.28%的LLM生成的回应达到了人类创造力基准的前10%。模型内存在显著的变异性,提示词选择对LLMs的影响也不同。
🎯 应用场景
该研究成果可应用于评估和选择适合特定创造性任务的LLM,例如头脑风暴、内容生成和产品设计。通过了解LLM的创造力水平和变异性,用户可以更有效地利用LLM来提高工作效率和创造力。此外,该研究也为LLM的创造力研究提供了新的思路和方法。
📄 摘要(原文)
Following the widespread adoption of ChatGPT in early 2023, numerous studies reported that large language models (LLMs) can match or even surpass human performance in creative tasks. However, it remains unclear whether LLMs have become more creative over time, and how consistent their creative output is. In this study, we evaluated 14 widely used LLMs -- including GPT-4, Claude, Llama, Grok, Mistral, and DeepSeek -- across two validated creativity assessments: the Divergent Association Task (DAT) and the Alternative Uses Task (AUT). Contrary to expectations, we found no evidence of increased creative performance over the past 18-24 months, with GPT-4 performing worse than in previous studies. For the more widely used AUT, all models performed on average better than the average human, with GPT-4o and o3-mini performing best. However, only 0.28% of LLM-generated responses reached the top 10% of human creativity benchmarks. Beyond inter-model differences, we document substantial intra-model variability: the same LLM, given the same prompt, can produce outputs ranging from below-average to original. This variability has important implications for both creativity research and practical applications. Ignoring such variability risks misjudging the creative potential of LLMs, either inflating or underestimating their capabilities. The choice of prompts affected LLMs differently. Our findings underscore the need for more nuanced evaluation frameworks and highlight the importance of model selection, prompt design, and repeated assessment when using Generative AI (GenAI) tools in creative contexts.