Playing with Words, Improving with Rewards: Training Language Models for Creative Association
作者: Vijeta Deshpande, Namrata Shivagunde, Sherin Muckatira, Hadrien Glaude, Mikhail Gronas, Claire Stevenson, Roger Beaty, Anna Rumshisky
分类: cs.CL
发布日期: 2026-05-27
💡 一句话要点
提出基于奖励的强化学习方法,训练语言模型进行创造性联想。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 大型语言模型 创造力 强化学习 词语联想 Codenames 奖励信号 Qwen3
📋 核心要点
- 现有方法在训练LLM创造力时,面临创造力主观性和人类判断局限性的挑战。
- 论文提出使用Codenames游戏,结合可验证奖励的强化学习(RLVR)来训练LLM。
- 实验表明,规模较大的8B模型在创造力方面有提升,而较小模型在推理任务上表现更好。
📝 摘要(中文)
大型语言模型(LLMs)正被应用于日益复杂的问题和用例。为了有效地驾驭其庞大的解决方案空间,LLMs需要具备创造力。然而,创造力的主观性和人类判断的局限性使得训练LLMs的创造力变得尤为具有挑战性。作为一种解决方案,我们使用Codenames(一种锻炼发散和收敛思维这两种创造力核心要素的词语联想游戏)来训练LLMs,该游戏能产生客观可验证的结果。这种可验证性使我们能够绕过人类判断,并使用具有可验证奖励的强化学习(RLVR)进行训练。我们训练了Qwen3-1.7B、4B和8B模型,并在十个创造力和四个推理基准上评估它们。我们发现精度-多样性权衡取决于规模:8B模型优先考虑创造力而非精度,而1.7B和4B模型以牺牲创造力为代价来提高推理精度。具体而言,8B模型显示出适度但一致的创造力提升(10个基准中的8个),而推理能力仅略有下降,而较小的模型在推理任务上取得了显著提升。我们的研究提出了一种可扩展且有效的解决方案来训练LLMs的创造力。
🔬 方法详解
问题定义:现有的大型语言模型在创造力方面存在不足,而创造力的主观性使得难以通过传统监督学习方法进行有效训练。人类评估创造力耗时且成本高昂,难以规模化。因此,如何客观、高效地训练LLM的创造力是一个关键问题。
核心思路:论文的核心思路是利用Codenames游戏提供的客观可验证的奖励信号,绕过主观的人工评估。通过强化学习,模型可以根据游戏结果(胜负)自动学习如何进行创造性的词语联想,从而提高其创造力。
技术框架:整体框架包括以下几个主要步骤:1) 使用Codenames游戏生成训练数据;2) 使用强化学习算法(具体算法未知,论文未明确说明)训练LLM;3) 使用可验证的奖励信号(游戏胜负)来指导模型的学习;4) 在创造力和推理基准上评估训练后的模型。
关键创新:关键创新在于使用Codenames游戏作为训练LLM创造力的环境,并利用游戏结果提供的客观奖励信号。这避免了对大量人工标注数据的依赖,使得训练过程更加高效和可扩展。此外,使用强化学习方法能够让模型自主探索和学习创造性的策略。
关键设计:论文使用了Qwen3系列的不同规模的模型(1.7B、4B和8B)进行实验。具体强化学习算法、奖励函数、网络结构等细节未知,论文中没有详细描述。论文重点关注模型规模对创造力和推理能力的影响,并分析了精度-多样性权衡。
📊 实验亮点
实验结果表明,使用Codenames游戏和强化学习训练的Qwen3模型在创造力方面取得了一定的提升。特别是8B模型在10个创造力基准中的8个上表现出适度但一致的提升,同时推理能力仅略有下降。较小的模型(1.7B和4B)在推理任务上取得了显著的提升,但创造力有所牺牲。这表明模型规模对创造力和推理能力之间存在权衡。
🎯 应用场景
该研究成果可应用于需要创造性思维的各种领域,例如内容生成、广告创意、产品设计等。通过训练具有创造力的LLM,可以自动化生成更具吸引力和创新性的内容,提高工作效率,并为用户提供更好的体验。未来的研究可以探索更复杂的创造性任务,并开发更有效的强化学习算法。
📄 摘要(原文)
Large Language Models (LLMs) are being applied to increasingly difficult problems and use cases. To navigate their vast solution spaces effectively, LLMs need to be creative. Yet the subjective nature of creativity and the limits of human judgment make training LLMs for creativity especially challenging. As a solution, we train LLMs on Codenames, a word-association game that exercises the two central axes of creativity, divergent and convergent thinking, while yielding objectively verifiable outcomes. This verifiability lets us bypass human judgment and train with Reinforcement Learning with Verifiable Rewards (RLVR). We train Qwen3-1.7B, 4B, and 8B models and evaluate them on ten creativity and four reasoning benchmarks. We find that the precision-diversity trade-off is scale-dependent: the 8B model prioritizes creativity over precision, while the 1.7B and 4B models gain reasoning precision at the cost of creativity. Concretely, the 8B model shows modest but consistent creativity gains (8 of 10 benchmarks) with only minor reasoning degradation, whereas the smaller models achieve substantial gains on reasoning tasks. Our study presents a scalable and effective solution to train LLMs for creativity.