Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs

作者: Guillermo Marco, Luz Rello, Julio Gonzalo

分类: cs.CL, cs.AI

发布日期: 2024-09-17 (更新: 2025-01-13)

备注: Accepted as Main Conference Paper at COLING 2025

期刊: Proceedings of the 31st International Conference on Computational Linguistics (COLING 2025), pages 6552-6570, Abu Dhabi, UAE. Association for Computational Linguistics

💡 一句话要点

小语言模型在短篇创意写作中超越人类：SLM与人类及LLM的对比研究

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 小型语言模型 创意写作 BART-large 人类评估 定性分析

📋 核心要点

现有大型语言模型在创意写作中存在过度预测和缺乏惊喜感的问题，限制了其创造性表达。
通过微调小型语言模型BART-large，探索其在短篇创意写作中的潜力，并与人类及大型模型对比。
实验表明，BART-large在总体表现上超越了普通人类作家，并在某些方面展现出比GPT-4o更强的创造性。

📝 摘要（中文）

本文评估了一个微调的小型语言模型(SLM)BART-large在创意小说写作方面的能力，并将其性能与人类作家以及两个大型语言模型(LLM)：GPT-3.5和GPT-4o进行了比较。我们的评估包括两个实验：(i)一项人类研究，其中68名参与者对人类和SLM创作的短篇故事在语法性、相关性、创造力和吸引力方面进行了评分，以及(ii)一项定性语言分析，检查了每个模型生成的故事的文本特征。在第一个实验中，BART-large的总体得分高于普通人类作家（2.11 vs. 1.85），相对提高了14%，尽管人类在创造力方面的轻微优势在统计上并不显著。在第二个实验中，定性分析表明，虽然GPT-4o表现出近乎完美的连贯性并使用了较少的陈词滥调，但它倾向于产生更可预测的语言，只有3%的概要具有令人惊讶的关联（BART为15%）。这些发现突出了模型大小和微调如何影响创意写作任务中创造力、流畅性和连贯性之间的平衡，并证明了较小的模型在某些情况下可以与人类和较大的模型相媲美。

🔬 方法详解

问题定义：论文旨在解决大型语言模型在创意写作中存在的创造力不足问题，具体表现为生成内容过于可预测，缺乏新颖性和惊喜感。现有方法往往侧重于提高语言模型的规模和流畅性，而忽略了创造性表达的重要性。

核心思路：论文的核心思路是利用微调后的小型语言模型（SLM）在特定任务上实现更好的创造力。作者认为，较小的模型可能更不容易陷入预训练数据的固有模式，从而产生更具创新性的文本。通过对SLM进行微调，可以使其在创造力、流畅性和连贯性之间达到更好的平衡。

技术框架：该研究主要包含两个阶段：模型训练和评估。模型训练阶段，作者使用BART-large作为基础模型，并使用创意写作数据集对其进行微调。评估阶段包含两个实验：一是人类评估实验，邀请人类参与者对不同模型生成的文本进行评分；二是定性语言分析，分析不同模型生成文本的语言特征。

关键创新：该研究的关键创新在于证明了小型语言模型在特定任务（如短篇创意写作）中可以超越大型语言模型甚至人类作家。这挑战了“模型越大越好”的传统观念，并为创意写作任务提供了一种新的模型选择思路。

关键设计：在人类评估实验中，作者设计了四个评估指标：语法性、相关性、创造力和吸引力。这些指标涵盖了文本质量的多个方面，从而可以更全面地评估不同模型的性能。在定性语言分析中，作者关注了文本的连贯性、陈词滥调的使用以及令人惊讶的关联等特征，从而可以更深入地了解不同模型的创造性表达能力。

📊 实验亮点

实验结果显示，BART-large在总体表现上（2.11分）超越了普通人类作家（1.85分），相对提升了14%。定性分析表明，BART-large生成的文本中，具有令人惊讶的关联的比例（15%）远高于GPT-4o（3%），表明小型模型在创造性方面具有潜在优势。

🎯 应用场景

该研究成果可应用于自动化故事生成、创意写作辅助工具、游戏剧情设计等领域。通过优化小型语言模型，可以降低计算成本，并为用户提供更具创造性和个性化的内容生成服务。未来的研究可以探索更多微调策略和评估指标，以进一步提升小型语言模型在创意写作方面的能力。

📄 摘要（原文）

In this paper, we evaluate the creative fiction writing abilities of a fine-tuned small language model (SLM), BART-large, and compare its performance to human writers and two large language models (LLMs): GPT-3.5 and GPT-4o. Our evaluation consists of two experiments: (i) a human study in which 68 participants rated short stories from humans and the SLM on grammaticality, relevance, creativity, and attractiveness, and (ii) a qualitative linguistic analysis examining the textual characteristics of stories produced by each model. In the first experiment, BART-large outscored average human writers overall (2.11 vs. 1.85), a 14% relative improvement, though the slight human advantage in creativity was not statistically significant. In the second experiment, qualitative analysis showed that while GPT-4o demonstrated near-perfect coherence and used less cliche phrases, it tended to produce more predictable language, with only 3% of its synopses featuring surprising associations (compared to 15% for BART). These findings highlight how model size and fine-tuning influence the balance between creativity, fluency, and coherence in creative writing tasks, and demonstrate that smaller models can, in certain contexts, rival both humans and larger models.

Small Language Models can Outperform Humans in Short Creative Writing: A Study Comparing SLMs with Humans and LLMs

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理