A Comparative Approach to Assessing Linguistic Creativity of Large Language Models and Humans

📄 arXiv: 2507.12039v2 📥 PDF

作者: Anca Dinu, Andra-Maria Florescu, Alina Resceanu

分类: cs.CL

发布日期: 2025-07-16 (更新: 2025-07-17)

备注: Accepted for presentation at KES 2025. To appear in Procedia Computer Science (Elsevier)

期刊: Procedia Computer Science 270 (2025) 1292-1301

DOI: 10.1016/j.procs.2025.09.250


💡 一句话要点

提出一种评估大型语言模型和人类语言创造力的通用测试方法

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 语言创造力评估 大型语言模型 构词法 隐喻 OCSAI 人机比较 原创性

📋 核心要点

  1. 现有方法缺乏对LLM语言创造力的全面评估,难以区分其与人类的差异。
  2. 设计一套包含构词和隐喻使用的测试,评估LLM和人类生成原创语言的能力。
  3. 实验结果表明LLM在多项指标上超越人类,但在创造力类型上存在偏好差异。

📝 摘要(中文)

本文提出了一种针对人类和大型语言模型(LLM)的通用语言创造力测试。该测试包含多个任务,旨在评估它们基于构词过程(派生和复合)以及隐喻语言的使用来生成新的原创词语和短语的能力。我们对24名人类和相同数量的LLM进行了测试,并使用OCSAI工具自动评估了他们的答案,评估标准包括原创性、精细性和灵活性。结果表明,LLM不仅在所有评估标准上都优于人类,而且在八个测试任务中的六个中表现更好。然后,我们计算了各个答案的独特性,结果显示人类和LLM之间存在一些细微差异。最后,我们对数据集进行了简短的手动分析,结果表明人类更倾向于E(扩展)创造力,而LLM则倾向于F(固定)创造力。

🔬 方法详解

问题定义:论文旨在解决如何有效评估大型语言模型(LLM)的语言创造力,并将其与人类的语言创造力进行比较的问题。现有方法缺乏针对LLM语言创造力的通用评估标准和工具,难以全面衡量LLM在生成新词、新短语以及运用隐喻等方面的能力。此外,现有研究较少关注LLM和人类在创造力类型上的差异。

核心思路:论文的核心思路是设计一套包含多种任务的语言创造力测试,这些任务涵盖了构词过程(派生和复合)以及隐喻语言的使用。通过这些任务,可以评估LLM和人类生成原创词语和短语的能力。同时,利用自动评估工具(OCSAI)和人工分析,对LLM和人类的答案进行多维度评估,从而比较二者在语言创造力方面的差异。

技术框架:该研究的技术框架主要包括以下几个阶段: 1. 测试设计:设计包含多种任务的语言创造力测试,涵盖构词和隐喻使用。 2. 数据收集:对人类和LLM进行测试,收集答案数据。 3. 自动评估:使用OCSAI工具对答案进行原创性、精细性和灵活性评估。 4. 独特性分析:计算各个答案的独特性。 5. 人工分析:对数据集进行人工分析,识别创造力类型。

关键创新:该研究的关键创新在于: 1. 提出了一个通用的、可用于评估LLM和人类语言创造力的测试框架。 2. 利用自动评估工具和人工分析相结合的方法,对LLM和人类的答案进行多维度评估。 3. 揭示了LLM和人类在创造力类型上的差异,即人类更倾向于扩展创造力,而LLM更倾向于固定创造力。

关键设计:测试任务的设计涵盖了词汇创造和隐喻使用两个方面。词汇创造任务包括基于派生和复合的词语生成。隐喻使用任务则考察LLM和人类在特定语境下创造性地使用隐喻的能力。OCSAI工具用于自动评估答案的原创性、精细性和灵活性,具体评估标准未知。人工分析则侧重于识别答案的创造力类型,区分扩展创造力和固定创造力。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,LLM在原创性、精细性和灵活性等多个指标上均优于人类,并在八个测试任务中的六个中表现更好。人工分析发现,人类更倾向于扩展创造力,而LLM更倾向于固定创造力。这些发现揭示了LLM和人类在语言创造力方面的差异,为进一步研究LLM的创造力机制提供了重要线索。

🎯 应用场景

该研究成果可应用于评估和提升大型语言模型的语言生成能力,尤其是在创意写作、广告文案、对话系统等领域。通过了解LLM和人类在创造力方面的差异,可以更好地设计人机协作模式,充分发挥各自的优势。此外,该测试框架也可用于评估不同LLM的语言创造力水平,为模型选择和优化提供参考。

📄 摘要(原文)

The following paper introduces a general linguistic creativity test for humans and Large Language Models (LLMs). The test consists of various tasks aimed at assessing their ability to generate new original words and phrases based on word formation processes (derivation and compounding) and on metaphorical language use. We administered the test to 24 humans and to an equal number of LLMs, and we automatically evaluated their answers using OCSAI tool for three criteria: Originality, Elaboration, and Flexibility. The results show that LLMs not only outperformed humans in all the assessed criteria, but did better in six out of the eight test tasks. We then computed the uniqueness of the individual answers, which showed some minor differences between humans and LLMs. Finally, we performed a short manual analysis of the dataset, which revealed that humans are more inclined towards E(extending)-creativity, while LLMs favor F(ixed)-creativity.