COS(M+O)S: Curiosity and RL-Enhanced MCTS for Exploring Story Space via Language Models
作者: Tobias Materzok
分类: cs.CL, cs.AI
发布日期: 2025-01-28
💡 一句话要点
COS(M+O)S:结合好奇心和强化学习的MCTS,用于探索语言模型的故事空间。
🎯 匹配领域: 支柱二:RL算法与架构 (RL & Architecture) 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 故事生成 蒙特卡洛树搜索 强化学习 好奇心驱动 语言模型 情节发展 开放式生成
📋 核心要点
- 现有语言模型在开放式情节发展中,难以兼顾故事的连贯性和新颖性,导致生成的故事质量受限。
- COS(M+O)S框架结合MCTS、好奇心驱动的价值模型和ORPO,系统探索情节空间,提升故事质量。
- 实验表明,COS(M+O)S显著提升了3B模型的故事质量,使其接近70B模型水平,并获得了人类和GPT-4o的认可。
📝 摘要(中文)
本文提出COS(M+O)S,一个受系统2启发的开放式情节发展框架,它系统地探索了故事扩展的广阔空间,使一个30亿参数的语言模型在特定的短篇故事任务上达到接近700亿参数模型的故事情节质量。该方法结合了蒙特卡洛树搜索(MCTS),由一个步进式价值模型引导,该模型奖励适度的惊奇(好奇心)同时惩罚不连贯性,以及Odds Ratio Preference Optimization (ORPO)来微调策略,使其适应高价值的情节扩展。这种迭代强化学习循环系统地探索多个候选情节分支,反向传播质量信号,并调整策略以加快收敛速度,显著地将策略从基于谜题的思维链转变为更以角色驱动的叙事。在短篇故事提示的小规模测试中,67%-77%的参与者更喜欢COS(M+O)S的最高评分扩展,而不是较低评分的扩展,这表明我们学习的价值函数是一致的。GPT-4o的评分进一步表明,COS(M+O)S超过了Llama 3.2 3B的朴素单次解码0.59个标准差,接近Llama 3.1 70B的0.06个标准差(无显著差异,p=0.93)。与o1的成对比较表明,COS(M+O)S比3B基线高出1.5个标准差,并且与70B之间没有统计学上的显著差距。然而,绝对的故事质量仍然不高,受到小模型容量和有限训练数据的限制。
🔬 方法详解
问题定义:论文旨在解决开放式情节发展中,语言模型难以生成高质量、连贯且新颖的故事的问题。现有方法通常采用单次解码,缺乏对情节空间的系统探索,导致故事质量受限于模型规模和训练数据。现有方法难以在探索故事新颖性的同时,保证故事的连贯性。
核心思路:论文的核心思路是利用蒙特卡洛树搜索(MCTS)系统地探索情节空间,并结合一个奖励好奇心(适度惊奇)和惩罚不连贯性的价值模型来指导搜索过程。通过Odds Ratio Preference Optimization (ORPO)对策略进行微调,使其能够更快地收敛到高质量的情节扩展。这种迭代强化学习循环能够有效地探索多个候选情节分支,并根据质量信号调整策略。
技术框架:COS(M+O)S框架主要包含以下几个模块:1) 蒙特卡洛树搜索(MCTS):用于系统地探索情节空间,生成多个候选情节分支。2) 价值模型:用于评估每个情节分支的质量,该模型奖励适度的惊奇(好奇心)并惩罚不连贯性。3) Odds Ratio Preference Optimization (ORPO):用于微调语言模型的策略,使其能够生成更高质量的情节扩展。整个流程是一个迭代的强化学习循环,通过不断探索、评估和优化,逐步提升故事质量。
关键创新:该方法最重要的创新点在于结合了好奇心驱动的价值模型和强化学习来指导MCTS的搜索过程。与传统的基于单一目标(如困惑度)的搜索方法不同,该方法能够更好地平衡故事的连贯性和新颖性,从而生成更高质量的故事。此外,使用ORPO进行策略微调,能够更有效地利用高质量的情节扩展数据,加速策略收敛。
关键设计:价值模型的设计是关键,它需要能够准确地评估情节的质量,并平衡好奇心和连贯性。具体实现中,好奇心可以通过计算当前情节与历史情节的差异来衡量,连贯性可以通过计算情节的困惑度或使用专门的连贯性评估模型来衡量。ORPO的损失函数需要仔细设计,以确保策略能够有效地学习到高质量的情节扩展模式。MCTS的搜索策略也需要进行调整,以更好地探索情节空间。
🖼️ 关键图片
📊 实验亮点
实验结果表明,COS(M+O)S显著提升了3B模型的故事质量,使其在短篇故事任务上接近70B模型的水平。67%-77%的参与者更喜欢COS(M+O)S生成的最高评分扩展。GPT-4o的评分显示,COS(M+O)S超过Llama 3.2 3B的朴素单次解码0.59个标准差,与Llama 3.1 70B的差距仅为0.06个标准差(无显著差异,p=0.93)。
🎯 应用场景
该研究成果可应用于故事生成、游戏剧情设计、创意写作辅助等领域。通过该方法,可以利用较小的语言模型生成更具创意和吸引力的故事,降低了对模型规模的依赖。未来,该方法可以扩展到其他类型的文本生成任务,例如对话生成、剧本创作等。
📄 摘要(原文)
We present COS(M+O)S, a System 2-inspired framework for open-ended plot development that systematically explores the vast space of possible story expansions, enabling a 3B-parameter language model to approach the plot quality of a 70B model on select short-story tasks. The method accomplishes this by combining Monte Carlo Tree Search (MCTS), guided by a step-level value model that rewards moderate surprisal (curiosity) while penalizing incoherence, and Odds Ratio Preference Optimization (ORPO) to fine-tune the policy on high-value plot expansions. This iterative reinforcement learning loop systematically explores multiple candidate plot branches, backpropagates quality signals, and adapts the policy for faster convergence, notably shifting the policy from puzzle-based Chain-of-Thought to more character-driven storytelling. In small-scale tests with short-story prompts, 67%-77% of participants favored COS(M+O)S's highest-rated expansions over lower-rated ones, suggesting that our learned value function aligns. GPT-4o ratings further show that COS(M+O)S surpasses naive single-pass decoding from Llama 3.2 3B by 0.59 SD, coming within 0.06 SD of Llama 3.1 70B (no significant difference, p=0.93). Pairwise comparisons with o1 place COS(M+O)S 1.5 SD above the 3B baseline and find no statistically significant gap from 70B. Nevertheless, absolute story quality remains modest, constrained by the small model's capacity and limited training data.