LitBench: A Benchmark and Dataset for Reliable Evaluation of Creative Writing

📄 arXiv: 2507.00769v1 📥 PDF

作者: Daniel Fein, Sebastian Russo, Violet Xiang, Kabir Jolly, Rafael Rafailov, Nick Haber

分类: cs.CL, cs.AI

发布日期: 2025-07-01

🔗 代码/项目: HUGGINGFACE


💡 一句话要点

LitBench:用于可靠评估创意写作的基准和数据集

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 创意写作评估 语言模型 奖励模型 人类偏好 基准数据集

📋 核心要点

  1. 现有创意写作评估缺乏标准答案,依赖零样本LLM评判员,但其可靠性未知,阻碍了有效评估。
  2. LitBench构建了包含人类偏好标签的大规模数据集,用于训练和评估创意写作的奖励模型,提升评估的可靠性。
  3. 实验表明,训练后的奖励模型(Bradley-Terry和生成式)优于现成LLM评判员,并与人类偏好高度一致。

📝 摘要(中文)

评估大型语言模型(LLM)生成的创意写作仍然具有挑战性,因为开放式叙事缺乏标准答案。在缺乏有效的自动评估方法的情况下,通常使用现成的(OTS)语言模型作为零样本评判员,但它们在这种环境下的可靠性尚不清楚。为了实现对创意写作的稳健评估,我们推出了LitBench,这是第一个用于创意写作验证的标准化基准和配对数据集,包含一个由Reddit上抽取的2,480个经过偏差校正、人工标注的故事比较组成的保留测试集,以及一个包含43,827对人类偏好标签的训练语料库。使用LitBench,我们(i)对零样本LLM评判员进行基准测试,(ii)训练Bradley Terry和生成式奖励模型,以及(iii)进行在线人工研究,以验证奖励模型对新生成的LLM故事的排名。我们的基准测试表明,Claude-3.7-Sonnet是最强的现成评判员,与人类偏好达成73%的一致性;在训练的奖励模型中,Bradley-Terry和生成式奖励模型都达到了78%的准确率,优于所有现成评判员。一项在线人工研究进一步证实,我们训练的奖励模型在新生成的LLM故事中与人类偏好保持一致。我们在https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461发布LitBench和奖励模型,为创意写作系统的可靠、自动评估和优化提供了一个经过验证的资源。

🔬 方法详解

问题定义:现有创意写作评估方法面临的主要问题是缺乏可靠的评估标准。由于创意写作的开放性,难以定义明确的ground truth。现有方法通常依赖于现成的LLM作为零样本评判员,但这些LLM在创意写作评估方面的可靠性和一致性尚未得到充分验证,导致评估结果可能存在偏差或不准确。

核心思路:论文的核心思路是通过构建一个大规模、高质量的配对数据集,包含人类对不同故事的偏好标签,从而训练和评估奖励模型。这些奖励模型能够学习人类对创意写作的偏好,并用于自动评估LLM生成的故事,从而提高评估的可靠性和一致性。

技术框架:LitBench框架主要包含以下几个阶段:1) 数据收集和标注:从Reddit等平台收集故事,并由人工标注者进行配对比较,给出偏好标签。2) 模型训练:使用配对数据集训练Bradley-Terry模型和生成式奖励模型,学习人类偏好。3) 模型评估:使用保留测试集评估训练后的奖励模型和现成LLM评判员的性能,比较它们与人类偏好的一致性。4) 在线人工研究:使用新生成的LLM故事,进行在线人工研究,验证奖励模型在实际应用中的有效性。

关键创新:该论文的关键创新在于构建了LitBench基准和数据集,为创意写作评估提供了一个标准化的平台。此外,论文还提出了使用奖励模型进行自动评估的方法,并验证了其优于现有零样本LLM评判员的性能。

关键设计:LitBench数据集包含43,827对训练数据和2,480对测试数据,确保了模型的训练和评估的充分性。论文使用了Bradley-Terry模型和生成式奖励模型,并针对创意写作的特点进行了优化。在线人工研究的设计考虑了故事的多样性和评估的公平性。

📊 实验亮点

LitBench基准测试表明,Claude-3.7-Sonnet作为现成评判员,与人类偏好达成73%的一致性。而经过训练的Bradley-Terry和生成式奖励模型均达到了78%的准确率,显著优于所有现成评判员。在线人工研究进一步验证了训练后的奖励模型与人类偏好在新生成的LLM故事中保持一致。

🎯 应用场景

该研究成果可应用于各种创意写作相关的领域,例如故事生成、剧本创作、广告文案撰写等。通过使用LitBench和训练好的奖励模型,可以更有效地评估和优化LLM生成的创意文本,提高其质量和吸引力。此外,该研究还可以促进对LLM在创意写作方面的能力的更深入理解,并为未来的研究提供参考。

📄 摘要(原文)

Evaluating creative writing generated by large language models (LLMs) remains challenging because open-ended narratives lack ground truths. Without performant automated evaluation methods, off-the-shelf (OTS) language models are employed as zero-shot judges, yet their reliability is unclear in this context. In pursuit of robust evaluation for creative writing, we introduce LitBench, the first standardized benchmark and paired dataset for creative writing verification, comprising a held-out test set of 2,480 debiased, human-labeled story comparisons drawn from Reddit and a 43,827-pair training corpus of human preference labels. Using LitBench, we (i) benchmark zero-shot LLM judges, (ii) train Bradley Terry and generative reward models, and (iii) conduct an online human study to validate reward model rankings on newly LLM-generated stories. Our benchmark identifies Claude-3.7-Sonnet as the strongest off-the-shelf judge, reaching 73% agreement with human preferences; among trained reward models, Bradley-Terry and Generative reward models both attain an accuracy of 78%, outperforming all off-the-shelf judges. An online human study further confirms that our trained reward models consistently align with human preferences in novel LLM-generated stories. We release LitBench and reward models at https://huggingface.co/collections/SAA-Lab/litbench-68267b5da3aafe58f9e43461, providing a vetted resource for reliable, automated evaluation and optimization of creative writing systems.