POEMetric: The Last Stanza of Humanity
作者: Bingru Li, Han Wang, Hazel Wilkinson
分类: cs.CL
发布日期: 2026-04-07
💡 一句话要点
POEMetric:首个诗歌评估框架,揭示LLM在诗歌创作中与人类的差距
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 诗歌评估 大型语言模型 自然语言生成 创意写作 LLM-as-a-judge
📋 核心要点
- 现有诗歌评估方法缺乏全面性,难以准确衡量LLM与人类诗人在诗歌创作上的差距。
- POEMetric框架从基本指令遵循、高级创作能力和整体质量三个方面评估LLM的诗歌生成能力。
- 实验结果表明,LLM在形式和主题上表现良好,但在创造力、情感共鸣等方面远逊于人类诗人。
📝 摘要(中文)
本文提出了POEMetric,首个全面的诗歌评估框架,旨在评估大型语言模型(LLMs)在诗歌创作中与人类诗人的差距。该框架考察了LLMs的三个方面能力:1)遵循指令生成特定形式和主题诗歌的基本能力;2)展现创造力、词汇多样性、个人风格、唤起情感共鸣以及运用意象和文学技巧的高级能力;3)对诗歌整体质量的评估和作者身份的估计。作者构建了一个包含203首英文诗歌的数据集,这些诗歌具有固定的形式,并标注了韵律、押韵模式和主题。基于这些形式和主题,作者使用30个LLMs生成了6090首诗歌。通过POEMetric,作者使用基于规则的评估和LLM-as-a-judge评估了人类诗人和LLMs的表现,结果经过人类专家验证。结果表明,尽管最佳模型在形式准确性(4.26/5.00)和主题对齐(4.99)方面表现出色,但所有模型都未能达到人类诗人所具备的高级能力水平,如创造力(4.02)、个人风格(3.95)、情感共鸣(4.06)以及对意象(4.49)和文学技巧(4.67)的熟练运用。人类在整体诗歌质量(4.22 vs. 3.20)上也优于表现最佳的LLM。因此,诗歌生成仍然是LLMs面临的巨大挑战。数据和代码已开源。
🔬 方法详解
问题定义:论文旨在解决如何全面评估大型语言模型(LLMs)在诗歌创作方面的能力,并量化其与人类诗人的差距。现有方法要么过于简单,无法捕捉诗歌的复杂性,要么缺乏统一的标准,难以进行公平比较。因此,需要一个综合性的评估框架,能够从多个维度考察LLMs的诗歌生成能力。
核心思路:论文的核心思路是构建一个多维度的诗歌评估框架POEMetric,该框架不仅关注LLMs生成诗歌的基本能力(如形式和主题的准确性),更侧重于考察其高级创作能力(如创造力、情感共鸣和文学技巧的运用)。通过对这些维度的综合评估,可以更全面地了解LLMs在诗歌创作方面的优势和不足。
技术框架:POEMetric框架包含以下几个主要组成部分:1)人类诗歌数据集:包含203首英文诗歌,涵盖7种固定形式,并标注了韵律、押韵模式和主题。2)LLM诗歌生成:使用30个LLMs基于人类诗歌的形式和主题生成诗歌。3)评估指标:包括基于规则的评估(用于评估形式和主题的准确性)和LLM-as-a-judge评估(用于评估高级创作能力和整体质量)。4)人类专家验证:对LLM-as-a-judge的评估结果进行验证,确保评估的准确性。
关键创新:POEMetric框架的关键创新在于其全面性和多维度性。它不仅关注LLMs生成诗歌的基本能力,更侧重于考察其高级创作能力,从而更全面地了解LLMs在诗歌创作方面的优势和不足。此外,该框架还采用了LLM-as-a-judge的方法,利用LLMs自身的能力来评估诗歌的质量,并结合人类专家的验证,提高了评估的准确性。
关键设计:在LLM-as-a-judge的评估中,使用了Gemini-2.5-Pro等先进的LLMs作为评估者。评估指标包括形式准确性、主题对齐、创造力、个人风格、情感共鸣、意象运用、文学技巧运用和整体诗歌质量。对每个指标,评估者给出1-5分的评分。此外,为了确保评估的公平性,对不同的LLMs生成的诗歌进行了随机排序,并对评估结果进行了统计分析。
🖼️ 关键图片
📊 实验亮点
实验结果表明,尽管LLMs在形式准确性(4.26/5.00)和主题对齐(4.99)方面表现出色,但在创造力(4.02)、个人风格(3.95)、情感共鸣(4.06)以及对意象(4.49)和文学技巧(4.67)的熟练运用方面远逊于人类诗人。人类在整体诗歌质量(4.22 vs. 3.20)上也优于表现最佳的LLM。这些数据清晰地揭示了LLMs在诗歌创作中与人类的差距。
🎯 应用场景
POEMetric框架可应用于评估和改进LLMs的诗歌生成能力,推动自然语言处理技术在创意写作领域的应用。此外,该框架还可以用于分析不同LLMs的优势和劣势,为LLM的开发和选择提供参考。未来,该框架可以扩展到其他文学形式的评估,促进AI在文化创意产业中的发展。
📄 摘要(原文)
Large Language Models (LLMs) can compose poetry, but how far are they from human poets? In this paper, we introduce POEMetric, the first comprehensive framework for poetry evaluation, examining 1) basic instruction-following abilities in generating poems according to a certain form and theme, 2) advanced abilities of showing creativity, lexical diversity, and idiosyncrasy, evoking emotional resonance, and using imagery and literary devices, and 3) general appraisal of the overall poem quality and estimation of authorship. We curated a human poem dataset - 203 English poems of 7 fixed forms annotated with meter, rhyme patterns and themes - and experimented with 30 LLMs for poetry generation based on the same forms and themes of the human data, totaling 6,090 LLM poems. Based on POEMetric, we assessed the performance of both human poets and LLMs through rule-based evaluation and LLM-as-a-judge, whose results were validated by human experts. Results show that, though the top model achieved high form accuracy (4.26 out of 5.00, with Gemini-2.5-Pro as a judge; same below) and theme alignment (4.99), all models failed to reach the same level of advanced abilities as human poets, who achieved unparalleled creativity (4.02), idiosyncrasy (3.95), emotional resonance (4.06), and skillful use of imagery (4.49) and literary devices (4.67). Humans also defeated the best-performing LLM in overall poem quality (4.22 vs. 3.20). As such, poetry generation remains a formidable challenge for LLMs. Data and codes are released atthis https URL.