Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs
作者: Guillermo Marco, Luz Rello, Julio Gonzalo
分类: cs.CL, cs.AI
发布日期: 2024-09-17 (更新: 2025-01-13)
备注: Accepted as Main Conference Paper at COLING 2025
期刊: Proceedings of the 31st International Conference on Computational Linguistics (COLING 2025), pages 6552-6570, Abu Dhabi, UAE. Association for Computational Linguistics
💡 一句话要点
小语言模型在短篇创意写作中超越人类:SLM与人类及LLM的对比研究
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 小型语言模型 创意写作 BART-large 人类评估 定性分析
📋 核心要点
- 现有大型语言模型在创意写作中存在过度预测和缺乏惊喜感的问题,限制了其创造性表达。
- 通过微调小型语言模型BART-large,探索其在短篇创意写作中的潜力,并与人类及大型模型对比。
- 实验表明,BART-large在总体表现上超越了普通人类作家,并在某些方面展现出比GPT-4o更强的创造性。
📝 摘要(中文)
本文评估了一个微调的小型语言模型(SLM)BART-large在创意小说写作方面的能力,并将其性能与人类作家以及两个大型语言模型(LLM):GPT-3.5和GPT-4o进行了比较。我们的评估包括两个实验:(i)一项人类研究,其中68名参与者对人类和SLM创作的短篇故事在语法性、相关性、创造力和吸引力方面进行了评分,以及(ii)一项定性语言分析,检查了每个模型生成的故事的文本特征。在第一个实验中,BART-large的总体得分高于普通人类作家(2.11 vs. 1.85),相对提高了14%,尽管人类在创造力方面的轻微优势在统计上并不显著。在第二个实验中,定性分析表明,虽然GPT-4o表现出近乎完美的连贯性并使用了较少的陈词滥调,但它倾向于产生更可预测的语言,只有3%的概要具有令人惊讶的关联(BART为15%)。这些发现突出了模型大小和微调如何影响创意写作任务中创造力、流畅性和连贯性之间的平衡,并证明了较小的模型在某些情况下可以与人类和较大的模型相媲美。
🔬 方法详解
问题定义:论文旨在解决大型语言模型在创意写作中存在的创造力不足问题,具体表现为生成内容过于可预测,缺乏新颖性和惊喜感。现有方法往往侧重于提高语言模型的规模和流畅性,而忽略了创造性表达的重要性。
核心思路:论文的核心思路是利用微调后的小型语言模型(SLM)在特定任务上实现更好的创造力。作者认为,较小的模型可能更不容易陷入预训练数据的固有模式,从而产生更具创新性的文本。通过对SLM进行微调,可以使其在创造力、流畅性和连贯性之间达到更好的平衡。
技术框架:该研究主要包含两个阶段:模型训练和评估。模型训练阶段,作者使用BART-large作为基础模型,并使用创意写作数据集对其进行微调。评估阶段包含两个实验:一是人类评估实验,邀请人类参与者对不同模型生成的文本进行评分;二是定性语言分析,分析不同模型生成文本的语言特征。
关键创新:该研究的关键创新在于证明了小型语言模型在特定任务(如短篇创意写作)中可以超越大型语言模型甚至人类作家。这挑战了“模型越大越好”的传统观念,并为创意写作任务提供了一种新的模型选择思路。
关键设计:在人类评估实验中,作者设计了四个评估指标:语法性、相关性、创造力和吸引力。这些指标涵盖了文本质量的多个方面,从而可以更全面地评估不同模型的性能。在定性语言分析中,作者关注了文本的连贯性、陈词滥调的使用以及令人惊讶的关联等特征,从而可以更深入地了解不同模型的创造性表达能力。
📊 实验亮点
实验结果显示,BART-large在总体表现上(2.11分)超越了普通人类作家(1.85分),相对提升了14%。定性分析表明,BART-large生成的文本中,具有令人惊讶的关联的比例(15%)远高于GPT-4o(3%),表明小型模型在创造性方面具有潜在优势。
🎯 应用场景
该研究成果可应用于自动化故事生成、创意写作辅助工具、游戏剧情设计等领域。通过优化小型语言模型,可以降低计算成本,并为用户提供更具创造性和个性化的内容生成服务。未来的研究可以探索更多微调策略和评估指标,以进一步提升小型语言模型在创意写作方面的能力。
📄 摘要(原文)
In this paper, we evaluate the creative fiction writing abilities of a fine-tuned small language model (SLM), BART-large, and compare its performance to human writers and two large language models (LLMs): GPT-3.5 and GPT-4o. Our evaluation consists of two experiments: (i) a human study in which 68 participants rated short stories from humans and the SLM on grammaticality, relevance, creativity, and attractiveness, and (ii) a qualitative linguistic analysis examining the textual characteristics of stories produced by each model. In the first experiment, BART-large outscored average human writers overall (2.11 vs. 1.85), a 14% relative improvement, though the slight human advantage in creativity was not statistically significant. In the second experiment, qualitative analysis showed that while GPT-4o demonstrated near-perfect coherence and used less cliche phrases, it tended to produce more predictable language, with only 3% of its synopses featuring surprising associations (compared to 15% for BART). These findings highlight how model size and fine-tuning influence the balance between creativity, fluency, and coherence in creative writing tasks, and demonstrate that smaller models can, in certain contexts, rival both humans and larger models.