Do LLMs Agree on the Creativity Evaluation of Alternative Uses?
作者: Abdullah Al Rabeyah, Fabrício Góes, Marco Volpe, Talles Medeiros
分类: cs.AI, cs.CL
发布日期: 2024-11-23 (更新: 2024-11-26)
备注: 19 pages, 7 figures, 15 tables
💡 一句话要点
研究表明大型语言模型在评估头脑风暴答案的创造力方面具有高度一致性
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 创造力评估 替代用途测试 一致性分析 自动化评估
📋 核心要点
- 现有研究主要关注单个LLM评估自身或人类生成的创造性内容,缺乏对不同LLM之间评估一致性的考察。
- 本研究使用包含不同创造力水平答案的基准数据集,测试多个LLM在评分和排序方面的表现,以评估其一致性。
- 实验结果表明,LLM在评估创造力方面具有高度一致性,且不偏袒自身生成的答案,验证了其在自动化创造力评估中的潜力。
📝 摘要(中文)
本文研究了大型语言模型(LLM)在评估“替代用途测试”(AUT)中答案的创造力时是否表现出一致性。尽管LLM越来越多地用于评估创造性内容,但之前的研究主要集中在单个模型评估由同一模型或人类生成的答案。本文探讨了LLM是否能够公正、准确地评估自身和其他模型生成的输出的创造力。我们使用了一个由AUT答案组成的oracle基准数据集,这些答案按创造力水平(普通、有创造力、高度有创造力)进行分类,并使用四个最先进的LLM来评估这些输出。我们测试了评分和排序方法,并采用两种评估设置(综合和分段),以检验LLM在评估替代用途的创造力方面是否达成一致。结果表明,模型间具有高度一致性,Spearman相关系数平均高于0.7,相对于oracle达到0.77以上,表明高度一致性,并验证了LLM在评估替代用途创造力方面的可靠性。值得注意的是,模型不偏袒自己的答案,而是为其他模型生成的替代用途提供相似的创造力评估分数或排名。这些发现表明,LLM在创造力评估方面表现出公正性和高度一致性,为其在自动化创造力评估中的应用提供了有希望的启示。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)在评估创造性任务(如替代用途测试AUT)时,不同模型之间是否具有一致性的问题。现有方法主要集中于单个LLM评估自身或人类生成的答案,缺乏对多个LLM之间评估结果一致性的系统性研究,这限制了LLM在自动化创造力评估中的可靠应用。
核心思路:论文的核心思路是利用一个预先标注好创造力等级(普通、有创造力、高度有创造力)的AUT答案基准数据集,让多个LLM对这些答案进行评分和排序,然后分析这些LLM之间的评估结果是否一致。通过这种方式,可以评估LLM在创造力评估方面的公正性和可靠性。
技术框架:整体框架包括以下几个主要步骤:1) 构建AUT答案的oracle基准数据集,并按创造力水平进行分类。2) 选择多个最先进的LLM作为评估者。3) 设计两种评估设置:综合评估和分段评估。4) 使用评分和排序两种方法,让LLM对基准数据集中的答案进行创造力评估。5) 使用Spearman相关系数等指标,分析LLM之间的评估结果一致性。
关键创新:论文的关键创新在于系统性地研究了多个LLM在创造力评估方面的一致性,并验证了LLM在自动化创造力评估中的潜力。与以往研究主要关注单个LLM的评估能力不同,本研究关注的是不同LLM之间的共识,这对于提高自动化创造力评估的可靠性和公正性至关重要。
关键设计:论文的关键设计包括:1) 使用AUT作为创造力评估的任务,AUT具有明确的评估标准和广泛的应用。2) 构建包含不同创造力水平答案的oracle基准数据集,保证评估的客观性。3) 选择多个最先进的LLM作为评估者,代表了当前LLM的最高水平。4) 使用评分和排序两种方法,从不同角度评估LLM的创造力评估能力。5) 使用Spearman相关系数等指标,量化LLM之间的评估结果一致性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,LLM在评估AUT答案的创造力方面具有高度一致性,Spearman相关系数平均高于0.7,相对于oracle达到0.77以上。更重要的是,LLM不偏袒自身生成的答案,而是为其他模型生成的答案提供相似的创造力评估分数或排名,表明其具有公正性。
🎯 应用场景
该研究成果可应用于自动化创造力评估、头脑风暴辅助工具、教育评估等领域。通过利用LLM进行初步的创造力评估,可以减轻人工评估的负担,提高评估效率。此外,该研究还可以为LLM在创意产业中的应用提供理论支持,例如辅助内容生成、创意设计等。
📄 摘要(原文)
This paper investigates whether large language models (LLMs) show agreement in assessing creativity in responses to the Alternative Uses Test (AUT). While LLMs are increasingly used to evaluate creative content, previous studies have primarily focused on a single model assessing responses generated by the same model or humans. This paper explores whether LLMs can impartially and accurately evaluate creativity in outputs generated by both themselves and other models. Using an oracle benchmark set of AUT responses, categorized by creativity level (common, creative, and highly creative), we experiment with four state-of-the-art LLMs evaluating these outputs. We test both scoring and ranking methods and employ two evaluation settings (comprehensive and segmented) to examine if LLMs agree on the creativity evaluation of alternative uses. Results reveal high inter-model agreement, with Spearman correlations averaging above 0.7 across models and reaching over 0.77 with respect to the oracle, indicating a high level of agreement and validating the reliability of LLMs in creativity assessment of alternative uses. Notably, models do not favour their own responses, instead they provide similar creativity assessment scores or rankings for alternative uses generated by other models. These findings suggest that LLMs exhibit impartiality and high alignment in creativity evaluation, offering promising implications for their use in automated creativity assessment.