Benchmarking the Detection of LLMs-Generated Modern Chinese Poetry

📄 arXiv: 2509.01620v1 📥 PDF

作者: Shanshan Wang, Junchao Wu, Fengying Ye, Jingming Yao, Lidia S. Chao, Derek F. Wong

分类: cs.CL, cs.AI

发布日期: 2025-09-01

备注: Accepted by EMNLP 2025


💡 一句话要点

构建现代中文诗歌检测基准,评估现有模型在识别LLM生成诗歌上的能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: AI生成文本检测 现代中文诗歌 大型语言模型 基准数据集 诗歌风格

📋 核心要点

  1. 现有AI生成文本检测方法在现代中文诗歌领域表现不足,无法有效区分人类创作和AI生成的诗歌。
  2. 构建高质量的现代中文诗歌数据集,并在此基础上评估现有检测器的性能,从而建立检测基准。
  3. 实验表明,现有检测器在识别LLM生成的现代中文诗歌方面效果不佳,尤其是在诗歌风格等内在特征上。

📝 摘要(中文)

随着大型语言模型(LLMs)的快速发展,AI生成的文本与人类创作的文本之间难以区分。虽然之前在检测AI生成文本方面取得了一些进展,但尚未涉及现代中文诗歌。由于现代中文诗歌的独特性,很难辨别一首诗是出自人类还是AI。AI生成的现代中文诗歌的泛滥严重扰乱了诗歌生态。鉴于在中国现实世界中识别AI生成诗歌的紧迫性,本文提出了一个新的基准,用于检测LLMs生成的现代中文诗歌。我们首先构建了一个高质量的数据集,其中包括六位专业诗人创作的800首诗歌和四个主流LLMs生成的41,600首诗歌。随后,我们对六个检测器在这个数据集上进行了系统的性能评估。实验结果表明,当前的检测器不能作为可靠的工具来检测LLMs生成的现代中文诗歌。最难检测的诗歌特征是内在品质,尤其是风格。检测结果验证了我们提出的基准的有效性和必要性。我们的工作为未来检测AI生成的诗歌奠定了基础。

🔬 方法详解

问题定义:论文旨在解决如何有效检测由大型语言模型(LLMs)生成的现代中文诗歌的问题。现有的AI生成文本检测方法在通用文本领域取得了一定进展,但由于现代中文诗歌的特殊性(例如,对意境、情感和风格的强调),这些方法难以直接应用于诗歌检测。此外,缺乏高质量的现代中文诗歌数据集也限制了相关研究的开展。

核心思路:论文的核心思路是构建一个专门用于检测LLMs生成现代中文诗歌的基准数据集,并在此基础上评估现有检测器的性能。通过分析现有检测器在诗歌检测任务上的表现,揭示它们在处理诗歌内在特征(如风格)方面的不足,从而为未来开发更有效的诗歌检测方法提供指导。

技术框架:该研究的技术框架主要包括以下几个步骤:1) 构建数据集:收集人类创作的现代中文诗歌和LLMs生成的诗歌,并进行清洗和标注。2) 选择检测器:选择具有代表性的AI生成文本检测器作为基线模型。3) 性能评估:在构建的数据集上评估这些检测器的性能,并分析其优缺点。4) 结果分析:分析实验结果,找出检测器在诗歌检测任务上的难点,并提出改进建议。

关键创新:该论文的主要创新在于构建了一个高质量的、专门用于检测LLMs生成现代中文诗歌的基准数据集。该数据集的构建填补了该领域的数据空白,为相关研究提供了基础。此外,论文还对现有检测器在诗歌检测任务上的性能进行了系统的评估,揭示了它们在处理诗歌内在特征方面的不足。

关键设计:数据集包含800首由六位专业诗人创作的诗歌和41,600首由四个主流LLMs生成的诗歌。选择的四个LLMs模型未知,未提及具体模型名称。评估指标未知,未提及具体评估指标。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,现有检测器在识别LLM生成的现代中文诗歌方面表现不佳,无法有效区分人类创作和AI生成的诗歌。尤其是在诗歌风格等内在特征的检测上,现有检测器的性能明显不足。这验证了该基准数据集的有效性和必要性,并为未来研究指明了方向。

🎯 应用场景

该研究成果可应用于诗歌创作平台的内容审核,防止AI生成内容泛滥,维护诗歌创作的原创性和艺术价值。同时,该基准数据集和评估结果可促进AI生成文本检测技术在诗歌领域的进一步发展,并为其他文学作品的AI生成内容检测提供参考。

📄 摘要(原文)

The rapid development of advanced large language models (LLMs) has made AI-generated text indistinguishable from human-written text. Previous work on detecting AI-generated text has made effective progress, but has not involved modern Chinese poetry. Due to the distinctive characteristics of modern Chinese poetry, it is difficult to identify whether a poem originated from humans or AI. The proliferation of AI-generated modern Chinese poetry has significantly disrupted the poetry ecosystem. Based on the urgency of identifying AI-generated poetry in the real Chinese world, this paper proposes a novel benchmark for detecting LLMs-generated modern Chinese poetry. We first construct a high-quality dataset, which includes both 800 poems written by six professional poets and 41,600 poems generated by four mainstream LLMs. Subsequently, we conduct systematic performance assessments of six detectors on this dataset. Experimental results demonstrate that current detectors cannot be used as reliable tools to detect modern Chinese poems generated by LLMs. The most difficult poetic features to detect are intrinsic qualities, especially style. The detection results verify the effectiveness and necessity of our proposed benchmark. Our work lays a foundation for future detection of AI-generated poetry.