Can Large Language Models Outperform Non-Experts in Poetry Evaluation? A Comparative Study Using the Consensual Assessment Technique
作者: Piotr Sawicki, Marek Grześ, Dan Brown, Fabrício Góes
分类: cs.CL
发布日期: 2025-02-26 (更新: 2025-10-04)
备注: 18 pages, 3 figures. Accepted for publication at the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP)
💡 一句话要点
利用共识评估技术,大语言模型在诗歌评估中超越非专家
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 诗歌评估 共识评估技术 自然语言处理 文本排序
📋 核心要点
- 现有诗歌评估方法主观性强,非专家评估质量难以保证,缺乏客观标准。
- 提出基于共识评估技术(CAT)的LLM诗歌评估方法,通过成对比较提升评估准确性。
- 实验表明,该方法使LLM在诗歌评估中显著超越非专家人类,斯皮尔曼等级相关系数达0.87。
📝 摘要(中文)
本研究将共识评估技术(CAT)应用于大语言模型(LLM),提出了一种新颖的诗歌评估方法。通过使用包含90首诗歌的数据集,并以发表场所作为标准,证明了该方法能使LLM显著超越非专家人类评估者的表现。该方法利用小型随机批次内的强制选择排序,使Claude-3-Opus与标准答案达到了0.87的斯皮尔曼等级相关系数(Spearman's Rank Correlation),大幅优于最佳非专家人类评估(SRC = 0.38)。LLM的评估也表现出很高的评估者间信度,突显了该方法的稳健性。这些发现表明,在比较框架的指导下,LLM可以成为评估诗歌的有效且可靠的工具,为它们在其他创意领域的更广泛应用铺平了道路。
🔬 方法详解
问题定义:论文旨在解决诗歌评估中主观性强、非专家评估质量低的问题。现有的诗歌评估方法依赖于人类专家的主观判断,成本高昂且难以规模化。非专家评估者由于缺乏专业知识,评估结果往往与公认的诗歌质量标准存在较大偏差。因此,如何利用自动化方法实现客观、准确的诗歌评估是一个重要的挑战。
核心思路:论文的核心思路是借鉴共识评估技术(CAT),通过让LLM在多个诗歌之间进行成对比较,从而降低评估的主观性,提高评估的准确性。CAT的核心思想是,通过多个评估者对同一批对象进行评估,并根据评估结果达成共识,从而得到更可靠的评估结果。论文将这一思想应用于LLM,通过让LLM对诗歌进行成对比较,从而得到更客观的诗歌质量排序。
技术框架:整体流程包括以下几个步骤:1) 构建包含多首诗歌的数据集,并以诗歌的发表场所作为ground truth;2) 将诗歌随机分成多个小型批次;3) 在每个批次内,让LLM对诗歌进行成对比较,并进行排序;4) 根据LLM的排序结果,计算其与ground truth之间的斯皮尔曼等级相关系数,作为评估指标;5) 计算LLM评估者之间的inter-rater reliability,评估方法稳定性。
关键创新:论文的关键创新在于将共识评估技术(CAT)应用于LLM,并将其用于诗歌评估。与传统的基于单篇诗歌的评估方法相比,该方法通过成对比较降低了评估的主观性,提高了评估的准确性。此外,论文还提出了一种基于发表场所的ground truth构建方法,为诗歌评估提供了一个客观的标准。
关键设计:论文的关键设计包括:1) 使用小型随机批次进行成对比较,以降低计算复杂度;2) 使用斯皮尔曼等级相关系数作为评估指标,以衡量LLM排序结果与ground truth之间的相关性;3) 使用inter-rater reliability作为评估指标,以衡量LLM评估者之间的信度。具体参数设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,基于共识评估技术(CAT)的LLM在诗歌评估中显著超越非专家人类。Claude-3-Opus与标准答案达到了0.87的斯皮尔曼等级相关系数,而最佳非专家人类评估的斯皮尔曼等级相关系数仅为0.38。这表明,LLM在诗歌评估方面具有巨大的潜力。
🎯 应用场景
该研究成果可应用于自动化诗歌评估、文学作品推荐、创意写作辅助等领域。通过利用LLM进行初步筛选和评估,可以降低人工评估的成本,提高效率。此外,该方法还可以用于其他创意领域的评估,例如音乐、绘画等,具有广泛的应用前景。未来,该方法有望促进文化创意产业的发展。
📄 摘要(原文)
This study adapts the Consensual Assessment Technique (CAT) for Large Language Models (LLMs), introducing a novel methodology for poetry evaluation. Using a 90-poem dataset with a ground truth based on publication venue, we demonstrate that this approach allows LLMs to significantly surpass the performance of non-expert human judges. Our method, which leverages forced-choice ranking within small, randomized batches, enabled Claude-3-Opus to achieve a Spearman's Rank Correlation of 0.87 with the ground truth, dramatically outperforming the best human non-expert evaluation (SRC = 0.38). The LLM assessments also exhibited high inter-rater reliability, underscoring the methodology's robustness. These findings establish that LLMs, when guided by a comparative framework, can be effective and reliable tools for assessing poetry, paving the way for their broader application in other creative domains.