Characterising the Creative Process in Humans and Large Language Models

作者: Surabhi S. Nath, Peter Dayan, Claire Stevenson

分类: cs.HC, cs.AI, cs.CL, q-bio.NC

发布日期: 2024-05-01 (更新: 2024-06-05)

🔗 代码/项目: GITHUB

💡 一句话要点

提出一种自动化方法，对比人类与大语言模型在创造性任务中的语义空间探索模式。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 创造力 语义空间 过程分析 句子嵌入

📋 核心要点

现有LLM创造力研究主要关注结果，忽略了过程分析，而人类创造过程分析方法不适用于LLM。
提出一种自动化方法，通过句子嵌入和语义相似性，表征人类和LLM在语义空间中的探索模式。
实验发现人类存在持续性和灵活性两种创造路径，LLM也表现出类似模式，但其创造力与灵活性的关系不同。

📝 摘要（中文）

大型语言模型在创造性任务中表现出色，通常与普通人类相当。然而，对LLM创造力的研究主要集中在 extit{产品}层面，而忽略了创造性的 extit{过程}。对人类创造过程的分析通常需要手动编码或利用反应时间，这并不适用于LLM。本文提出了一种自动化方法，用于表征人类和LLM在“替代用途任务”中探索语义空间的方式，并与“词语流畅性任务”中的行为进行对比。我们使用句子嵌入来识别响应类别并计算语义相似性，进而生成跳跃轮廓。结果证实了先前关于人类的研究，即存在持续性（在少数语义空间中深度搜索）和灵活性（在多个语义空间中广泛搜索）两种创造性路径，且两种路径都能产生相似的创造力得分。研究发现，LLM倾向于持续性或灵活性的路径，且这种倾向因任务而异。虽然LLM作为一个群体与人类的概况相匹配，但它们与创造力之间的关系不同，其中更灵活的模型在创造力方面得分更高。我们的数据集和脚本可在GitHub上获取。

🔬 方法详解

问题定义：论文旨在解决如何量化和比较人类与大型语言模型（LLM）在创造性任务中的创造过程。现有方法，如人工编码和反应时间分析，不适用于LLM，因此缺乏对LLM创造过程的深入理解。

核心思路：核心思路是利用句子嵌入技术将创造性任务的回答映射到语义空间，并通过分析个体在语义空间中的“跳跃”模式来表征其创造过程。通过计算连续回答之间的语义相似性，可以推断个体是在深入探索某个语义类别（持续性），还是在不同类别之间切换（灵活性）。

技术框架：整体框架包括以下几个步骤：1) 收集人类和LLM在“替代用途任务”（Alternate Uses Task）和“词语流畅性任务”（Verbal Fluency Task）中的回答；2) 使用预训练的句子嵌入模型（如Sentence-BERT）将每个回答转换为向量表示；3) 计算连续回答之间的余弦相似度，得到语义相似度矩阵；4) 基于相似度矩阵生成“跳跃轮廓”（jump profiles），用于描述个体在语义空间中的探索模式；5) 分析跳跃轮廓与创造力得分之间的关系。

关键创新：关键创新在于提出了一种完全自动化的方法来量化创造过程，无需人工干预，适用于分析LLM的创造性行为。该方法通过语义相似性分析，将创造过程分解为可量化的指标，如持续性和灵活性，从而可以更深入地理解创造力的本质。

关键设计：关键设计包括：1) 使用Sentence-BERT等预训练模型提取句子嵌入，确保语义信息的准确捕捉；2) 使用余弦相似度作为语义相似性的度量标准，简单有效；3) 设计“跳跃轮廓”来可视化和量化个体在语义空间中的探索模式，便于比较不同个体和任务之间的差异。

🖼️ 关键图片

📊 实验亮点

实验结果表明，人类的创造过程既包含持续性也包含灵活性，且两种路径都能带来相似的创造力得分。LLM也表现出类似的模式，但其创造力与灵活性的关系与人类不同，更灵活的LLM在创造力方面得分更高。该研究为理解LLM的创造力提供了新的视角。

🎯 应用场景

该研究成果可应用于评估和改进LLM的创造力，例如，通过调整训练策略，鼓励LLM采用更灵活的探索模式，从而提高其在创意生成任务中的表现。此外，该方法也可用于研究人类创造力的认知机制，为教育和创新实践提供理论指导。

📄 摘要（原文）

Large language models appear quite creative, often performing on par with the average human on creative tasks. However, research on LLM creativity has focused solely on \textit{products}, with little attention on the creative \textit{process}. Process analyses of human creativity often require hand-coded categories or exploit response times, which do not apply to LLMs. We provide an automated method to characterise how humans and LLMs explore semantic spaces on the Alternate Uses Task, and contrast with behaviour in a Verbal Fluency Task. We use sentence embeddings to identify response categories and compute semantic similarities, which we use to generate jump profiles. Our results corroborate earlier work in humans reporting both persistent (deep search in few semantic spaces) and flexible (broad search across multiple semantic spaces) pathways to creativity, where both pathways lead to similar creativity scores. LLMs were found to be biased towards either persistent or flexible paths, that varied across tasks. Though LLMs as a population match human profiles, their relationship with creativity is different, where the more flexible models score higher on creativity. Our dataset and scripts are available on \href{https://github.com/surabhisnath/Creative_Process}{GitHub}.

Characterising the Creative Process in Humans and Large Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理