Capabilities and Evaluation Biases of Large Language Models in Classical Chinese Poetry Generation: A Case Study on Tang Poetry

作者: Bolei Ma, Yina Yao, Anna-Carolina Haensch

分类: cs.CL

发布日期: 2025-10-17

💡 一句话要点

提出三步评估框架，揭示大语言模型在古诗生成与评估中的偏差

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 古诗生成 评估框架 偏差分析 人机混合验证

📋 核心要点

现有方法缺乏对大语言模型在古诗生成与评估中表现的深入理解，存在评估标准不明确的问题。
论文提出三步评估框架，结合计算指标、LLM评估和专家验证，多维度评估诗歌质量。
实验揭示LLM在诗歌生成和评估中存在系统性偏差，强调人机混合验证的重要性。

📝 摘要（中文）

大型语言模型（LLMs）越来越多地应用于创意领域，但它们在古典中文诗歌生成和评估方面的表现仍然知之甚少。本文提出了一种三步评估框架，该框架结合了计算指标、LLM作为评判者的评估以及人类专家验证。利用该框架，我们评估了六个最先进的LLM在诗歌质量的多个维度上的表现，包括主题、情感、意象、形式和风格。我们的分析揭示了系统性的生成和评估偏差：LLM在评估创意质量时表现出“回声室”效应，常常趋同于与人类判断不同的有缺陷的标准。这些发现突出了当前LLM作为文化生成代理的潜力和局限性，以及有限的评估实践，从而证明了在文化和技术上复杂的创意任务中，持续需要来自人类和模型的混合验证。

🔬 方法详解

问题定义：论文旨在解决大型语言模型（LLMs）在古典中文诗歌（特别是唐诗）生成和评估中存在的性能评估问题。现有方法缺乏对LLM生成诗歌质量的全面评估，并且LLM自身作为评估者时可能存在偏差，导致评估结果与人类专家的判断不一致。现有方法难以有效衡量诗歌的主题、情感、意象、形式和风格等多个维度。

核心思路：论文的核心思路是构建一个多层次、综合性的评估框架，该框架结合了传统的计算指标、LLM自身的评估能力以及人类专家的主观判断。通过对比不同评估方法的结果，揭示LLM在诗歌生成和评估中存在的偏差，并提出改进建议。这种方法旨在更全面、客观地评估LLM在文化创意任务中的表现。

技术框架：该三步评估框架包含以下主要阶段： 1. 计算指标评估：使用诸如BLEU、ROUGE等传统指标，评估生成诗歌的流畅度和与训练数据的相似度。 2. LLM评估：利用LLM自身作为评估者，对生成诗歌的质量进行评分，考察LLM对诗歌质量的理解程度。 3. 人类专家验证：邀请诗歌领域的专家对生成诗歌进行主观评价，作为评估的黄金标准。然后，将LLM的评估结果与人类专家的评估结果进行对比，分析LLM的评估偏差。

关键创新：该论文的关键创新在于提出了一个综合性的评估框架，该框架不仅考虑了传统的计算指标，还引入了LLM自身作为评估者，并与人类专家的评估结果进行对比。这种多层次的评估方法能够更全面地揭示LLM在诗歌生成和评估中存在的偏差，为改进LLM的性能提供指导。与现有方法相比，该方法更注重对LLM评估偏差的分析，而非仅仅关注生成诗歌的客观指标。

关键设计：在LLM评估阶段，论文可能使用了特定的prompt工程技术，引导LLM从多个维度（如主题、情感、意象、形式和风格）对诗歌进行评分。此外，论文可能还设计了特定的损失函数，用于训练LLM更好地理解诗歌的质量，并减少评估偏差。具体的技术细节（如prompt的具体内容、损失函数的选择等）未知。

🖼️ 关键图片

📊 实验亮点

实验结果表明，LLM在评估诗歌质量时存在“回声室”效应，即LLM倾向于认同自身生成的诗歌，即使这些诗歌在人类专家看来质量不高。此外，LLM在评估诗歌的情感和意象方面表现出明显的偏差，与人类专家的判断存在显著差异。具体的性能数据和提升幅度未知。

🎯 应用场景

该研究成果可应用于提升大语言模型在文化创意领域的应用能力，例如诗歌创作、剧本生成、艺术评论等。通过更准确的评估和偏差校正，可以提高LLM生成内容的质量和文化价值。此外，该研究提出的评估框架也可推广到其他文化创意任务中，促进人工智能在文化领域的健康发展。

📄 摘要（原文）

Large Language Models (LLMs) are increasingly applied to creative domains, yet their performance in classical Chinese poetry generation and evaluation remains poorly understood. We propose a three-step evaluation framework that combines computational metrics, LLM-as-a-judge assessment, and human expert validation. Using this framework, we evaluate six state-of-the-art LLMs across multiple dimensions of poetic quality, including themes, emotions, imagery, form, and style. Our analysis reveals systematic generation and evaluation biases: LLMs exhibit "echo chamber" effects when assessing creative quality, often converging on flawed standards that diverge from human judgments. These findings highlight both the potential and limitations of current capabilities of LLMs as proxy for literacy generation and the limited evaluation practices, thereby demonstrating the continued need of hybrid validation from both humans and models in culturally and technically complex creative tasks.

Capabilities and Evaluation Biases of Large Language Models in Classical Chinese Poetry Generation: A Case Study on Tang Poetry

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理