Automated Creativity Evaluation for Large Language Models: A Reference-Based Approach
作者: Ruizhe Li, Chiwei Zhu, Benfeng Xu, Xiaorui Wang, Zhendong Mao
分类: cs.CL, cs.AI
发布日期: 2025-04-22
💡 一句话要点
提出基于参考文本的LLM创造力自动评估方法,显著提升与人类评估的一致性。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 创造力评估 自动评估 参考文本 Likert量表
📋 核心要点
- 现有LLM创造力评估方法依赖人工标注或与人类评估不一致,成本高昂且效果不佳。
- 该论文提出基于参考文本的Likert量表式评估方法,模拟人类评估过程,提升评估准确性。
- 实验表明,该方法显著提高了LLM创造力评估与人类评估的一致性,成对准确率提升15%。
📝 摘要(中文)
创造性写作是大型语言模型(LLM)的一项关键能力,在文学、故事创作和各种创意领域具有潜在应用。然而,评估机器生成文本的创造力仍然是一个重大挑战,因为现有方法要么依赖于昂贵的人工标注,要么无法与人类评估紧密对齐。本文提出了一种有效的自动化评估方法,该方法基于Torrance创造性写作测试(TTCW),将创造力评估为一种产品。我们的方法采用基于参考文本的Likert量表式方法,根据各种测试,相对于高质量的参考文本对生成的创意文本进行评分。实验结果表明,我们的方法显著提高了LLM评估与人类评估之间的一致性,实现了0.75的成对准确率(+15%)。
🔬 方法详解
问题定义:论文旨在解决大型语言模型(LLM)生成文本的创造力自动评估问题。现有方法的痛点在于,依赖人工标注成本高昂,且难以保证评估标准的一致性;而其他自动评估方法又难以与人类的创造力认知对齐,导致评估结果偏差较大。
核心思路:论文的核心思路是借鉴Torrance创造性写作测试(TTCW)的思想,将创造力评估视为一种产品评估,并采用基于参考文本的Likert量表式方法。通过将LLM生成的文本与高质量的参考文本进行比较,从而评估其创造力水平。这种方法模拟了人类评估的过程,能够更好地捕捉创造力的主观特性。
技术框架:该方法主要包含以下几个阶段:1) 收集高质量的参考文本,作为创造力评估的基准;2) 使用LLM生成待评估的创意文本;3) 针对每个待评估文本,计算其与参考文本之间的相似度或相关性;4) 基于相似度或相关性,使用Likert量表对LLM生成的文本进行评分,评分维度可以包括流畅性、独创性、灵活性和精细性等;5) 将自动评估结果与人工评估结果进行对比,验证方法的有效性。
关键创新:该方法最重要的技术创新点在于,将参考文本引入到LLM创造力评估中,并采用Likert量表式评分。这种方法能够有效地将人类的创造力认知融入到自动评估过程中,从而提高评估的准确性和可靠性。与现有方法相比,该方法不需要大量的人工标注,且能够更好地与人类评估对齐。
关键设计:论文中,参考文本的选择至关重要,需要保证参考文本的质量和多样性。此外,相似度或相关性的计算方法也会影响评估结果,可以选择余弦相似度、编辑距离等常用的文本相似度计算方法。Likert量表的刻度设置也需要根据具体的评估任务进行调整,以保证评分的区分度。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法显著提高了LLM创造力评估与人类评估之间的一致性,实现了0.75的成对准确率,相比现有方法提升了15%。这一结果表明,基于参考文本的Likert量表式评估方法能够有效地捕捉人类对创造力的主观认知,为LLM创造力评估提供了一种新的思路。
🎯 应用场景
该研究成果可应用于各种需要评估LLM创造力的场景,例如文学创作、广告文案生成、游戏剧情设计等。通过自动评估LLM的创造力,可以帮助开发者更好地优化模型,提高生成文本的质量和创新性。此外,该方法还可以用于评估不同LLM之间的创造力差异,为用户选择合适的模型提供参考。
📄 摘要(原文)
Creative writing is a key capability of Large Language Models (LLMs), with potential applications in literature, storytelling, and various creative domains. However, evaluating the creativity of machine-generated texts remains a significant challenge, as existing methods either rely on costly manual annotations or fail to align closely with human assessments. In this paper, we propose an effective automated evaluation method based on the Torrance Test of Creative Writing (TTCW), which evaluates creativity as product. Our method employs a reference-based Likert-style approach, scoring generated creative texts relative to high-quality reference texts across various tests. Experimental results demonstrate that our method significantly improves the alignment between LLM evaluations and human assessments, achieving a pairwise accuracy of 0.75 (+15\%).