Can Large Language Models Outperform Non-Experts in Poetry Evaluation? A Comparative Study Using the Consensual Assessment Technique

作者: Piotr Sawicki, Marek Grześ, Dan Brown, Fabrício Góes

分类: cs.CL

发布日期: 2025-02-26 (更新: 2025-10-04)

备注: 18 pages, 3 figures. Accepted for publication at the 2025 Conference on Empirical Methods in Natural Language Processing (EMNLP)

💡 一句话要点

利用共识评估技术，大语言模型在诗歌评估中超越非专家

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 诗歌评估 共识评估技术 自然语言处理 文本排序

📋 核心要点

现有诗歌评估方法主观性强，非专家评估质量难以保证，缺乏客观标准。
提出基于共识评估技术（CAT）的LLM诗歌评估方法，通过成对比较提升评估准确性。
实验表明，该方法使LLM在诗歌评估中显著超越非专家人类，斯皮尔曼等级相关系数达0.87。

📝 摘要（中文）

本研究将共识评估技术（CAT）应用于大语言模型（LLM），提出了一种新颖的诗歌评估方法。通过使用包含90首诗歌的数据集，并以发表场所作为标准，证明了该方法能使LLM显著超越非专家人类评估者的表现。该方法利用小型随机批次内的强制选择排序，使Claude-3-Opus与标准答案达到了0.87的斯皮尔曼等级相关系数（Spearman's Rank Correlation），大幅优于最佳非专家人类评估（SRC = 0.38）。LLM的评估也表现出很高的评估者间信度，突显了该方法的稳健性。这些发现表明，在比较框架的指导下，LLM可以成为评估诗歌的有效且可靠的工具，为它们在其他创意领域的更广泛应用铺平了道路。

🔬 方法详解

问题定义：论文旨在解决诗歌评估中主观性强、非专家评估质量低的问题。现有的诗歌评估方法依赖于人类专家的主观判断，成本高昂且难以规模化。非专家评估者由于缺乏专业知识，评估结果往往与公认的诗歌质量标准存在较大偏差。因此，如何利用自动化方法实现客观、准确的诗歌评估是一个重要的挑战。

核心思路：论文的核心思路是借鉴共识评估技术（CAT），通过让LLM在多个诗歌之间进行成对比较，从而降低评估的主观性，提高评估的准确性。CAT的核心思想是，通过多个评估者对同一批对象进行评估，并根据评估结果达成共识，从而得到更可靠的评估结果。论文将这一思想应用于LLM，通过让LLM对诗歌进行成对比较，从而得到更客观的诗歌质量排序。

技术框架：整体流程包括以下几个步骤：1) 构建包含多首诗歌的数据集，并以诗歌的发表场所作为ground truth；2) 将诗歌随机分成多个小型批次；3) 在每个批次内，让LLM对诗歌进行成对比较，并进行排序；4) 根据LLM的排序结果，计算其与ground truth之间的斯皮尔曼等级相关系数，作为评估指标；5) 计算LLM评估者之间的inter-rater reliability，评估方法稳定性。

关键创新：论文的关键创新在于将共识评估技术（CAT）应用于LLM，并将其用于诗歌评估。与传统的基于单篇诗歌的评估方法相比，该方法通过成对比较降低了评估的主观性，提高了评估的准确性。此外，论文还提出了一种基于发表场所的ground truth构建方法，为诗歌评估提供了一个客观的标准。

关键设计：论文的关键设计包括：1) 使用小型随机批次进行成对比较，以降低计算复杂度；2) 使用斯皮尔曼等级相关系数作为评估指标，以衡量LLM排序结果与ground truth之间的相关性；3) 使用inter-rater reliability作为评估指标，以衡量LLM评估者之间的信度。具体参数设置未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，基于共识评估技术（CAT）的LLM在诗歌评估中显著超越非专家人类。Claude-3-Opus与标准答案达到了0.87的斯皮尔曼等级相关系数，而最佳非专家人类评估的斯皮尔曼等级相关系数仅为0.38。这表明，LLM在诗歌评估方面具有巨大的潜力。

🎯 应用场景

该研究成果可应用于自动化诗歌评估、文学作品推荐、创意写作辅助等领域。通过利用LLM进行初步筛选和评估，可以降低人工评估的成本，提高效率。此外，该方法还可以用于其他创意领域的评估，例如音乐、绘画等，具有广泛的应用前景。未来，该方法有望促进文化创意产业的发展。

📄 摘要（原文）

This study adapts the Consensual Assessment Technique (CAT) for Large Language Models (LLMs), introducing a novel methodology for poetry evaluation. Using a 90-poem dataset with a ground truth based on publication venue, we demonstrate that this approach allows LLMs to significantly surpass the performance of non-expert human judges. Our method, which leverages forced-choice ranking within small, randomized batches, enabled Claude-3-Opus to achieve a Spearman's Rank Correlation of 0.87 with the ground truth, dramatically outperforming the best human non-expert evaluation (SRC = 0.38). The LLM assessments also exhibited high inter-rater reliability, underscoring the methodology's robustness. These findings establish that LLMs, when guided by a comparative framework, can be effective and reliable tools for assessing poetry, paving the way for their broader application in other creative domains.

Can Large Language Models Outperform Non-Experts in Poetry Evaluation? A Comparative Study Using the Consensual Assessment Technique

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理