Modifying Large Language Model Post-Training for Diverse Creative Writing
作者: John Joon Young Chung, Vishakh Padmakumar, Melissa Roemmele, Yuqian Sun, Max Kreminski
分类: cs.CL, cs.LG
发布日期: 2025-03-21
💡 一句话要点
提出基于偏差的后训练方法,提升大语言模型在创意写作中的多样性和质量。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大语言模型 后训练 创意写作 多样性 偏差
📋 核心要点
- 现有大语言模型后训练侧重于提升生成质量,忽略了创意写作任务中输出多样性的需求。
- 论文提出在训练目标中引入“偏差”概念,鼓励模型学习罕见但高质量的样本,从而提升多样性。
- 实验表明,该方法在提升模型输出多样性的同时,能够保持甚至接近现有最佳模型的生成质量。
📝 摘要(中文)
由于创意写作任务没有唯一的正确答案,因此训练用于执行这些任务的大语言模型(LLM)应该能够生成多样化的有效输出。然而,LLM的后训练通常侧重于提高生成质量,而忽略了促进输出多样性。因此,在创意写作生成中,我们研究了后训练方法,以同时促进输出多样性和质量。我们的核心思想是在训练目标中包含偏差(即训练样本与具有相同提示的所有其他样本之间的差异程度),以促进从罕见的高质量实例中学习。通过将我们的方法应用于直接偏好优化(DPO)和赔率比偏好优化(ORPO),我们证明了我们可以在最小程度地降低质量的同时,提高训练模型的输出多样性。我们最好的8B参数模型可以实现与人类创建的数据集相当的多样性,同时具有与我们检查过的最佳指令调整模型(GPT-4o和DeepSeek-R1)相似的输出质量。我们通过人工评估、消融实验以及与现有多样化方法DivPO的比较,进一步验证了我们的方法。
🔬 方法详解
问题定义:现有的大语言模型在进行创意写作时,往往缺乏多样性,生成的文本较为单一。后训练阶段通常只关注提升生成质量,而忽略了多样性这一重要指标。这导致模型无法充分发挥其潜力,难以满足用户对不同风格、不同创意的需求。
核心思路:论文的核心思路是在后训练阶段,通过引入“偏差”(deviation)的概念,鼓励模型学习那些与其他具有相同提示的样本差异较大的、罕见但高质量的实例。这种方法旨在让模型能够更好地捕捉到数据集中蕴含的各种可能性,从而生成更多样化的文本。
技术框架:论文将提出的方法应用于直接偏好优化(DPO)和赔率比偏好优化(ORPO)两种常见的后训练框架。具体来说,就是在DPO和ORPO的损失函数中,加入了与“偏差”相关的项,使得模型在优化过程中,不仅要关注生成文本的质量,还要关注其与已有文本的差异性。
关键创新:该论文的关键创新在于提出了将“偏差”纳入后训练目标的方法。与以往只关注生成质量的后训练方法不同,该方法能够同时提升生成质量和多样性。通过鼓励模型学习罕见的高质量实例,该方法能够有效地扩展模型的生成空间,使其能够生成更多样化的文本。
关键设计:论文中,“偏差”的计算方式是训练样本与所有具有相同提示的其他样本之间的差异程度。具体的计算方法未知,但可以推测是基于某种文本相似度度量。此外,论文还对DPO和ORPO的损失函数进行了修改,加入了与“偏差”相关的项,并对该项的权重进行了调整,以平衡生成质量和多样性之间的关系。具体的权重设置未知。
🖼️ 关键图片
📊 实验亮点
实验结果表明,该方法能够显著提升大语言模型在创意写作中的输出多样性,同时保持甚至接近现有最佳模型的生成质量。具体来说,一个8B参数的模型能够达到与人类创建的数据集相当的多样性,并且其输出质量与GPT-4o和DeepSeek-R1等先进模型相当。人工评估也验证了该方法的有效性。
🎯 应用场景
该研究成果可广泛应用于各种创意写作场景,例如故事生成、诗歌创作、剧本编写等。通过提升大语言模型生成文本的多样性,可以帮助用户获得更丰富的创作灵感,提高创作效率。此外,该方法还可以应用于其他需要生成多样化输出的任务,例如图像生成、音乐生成等。
📄 摘要(原文)
As creative writing tasks do not have singular correct answers, large language models (LLMs) trained to perform these tasks should be able to generate diverse valid outputs. However, LLM post-training often focuses on improving generation quality but neglects to facilitate output diversity. Hence, in creative writing generation, we investigate post-training approaches to promote both output diversity and quality. Our core idea is to include deviation -- the degree of difference between a training sample and all other samples with the same prompt -- in the training objective to facilitate learning from rare high-quality instances. By adopting our approach to direct preference optimization (DPO) and odds ratio preference optimization (ORPO), we demonstrate that we can promote the output diversity of trained models while minimally decreasing quality. Our best model with 8B parameters could achieve on-par diversity as a human-created dataset while having output quality similar to the best instruction-tuned models we examined, GPT-4o and DeepSeek-R1. We further validate our approaches with a human evaluation, an ablation, and a comparison to an existing diversification approach, DivPO.