Once Upon a Time: Interactive Learning for Storytelling with Small Language Models

作者: Jonas Mayer Martins, Ali Hamza Bashir, Muhammad Rehan Khalid, Lisa Beinborn

分类: cs.CL, cs.AI

发布日期: 2025-09-19

备注: EMNLP 2025, BabyLM Challenge; 16 pages, 6 figures

💡 一句话要点

提出交互式学习框架，利用认知反馈提升小语言模型的故事生成能力。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 交互式学习 故事生成 小语言模型 认知反馈 强化学习

📋 核心要点

现有大型语言模型依赖海量数据进行训练，忽略了人类通过交互学习语言的有效方式。
论文提出交互式学习框架，通过教师模型提供可读性、连贯性和创造性等高层次反馈来指导学生模型。
实验表明，该方法在数据效率上显著优于传统的下一个词预测，仅需少量数据即可达到相当的性能。

📝 摘要（中文）

儿童通过与社交环境互动来高效地学习语言，而大型语言模型通常通过在海量文本上进行下一个词预测来训练。受此对比的启发，本文研究了语言模型是否可以通过不仅从下一个词预测中学习，还可以从高层次、认知启发的反馈中学习，从而用更少的数据进行训练。本文训练一个学生模型来生成故事，教师模型根据可读性、叙事连贯性和创造力对故事进行评分。通过改变反馈循环前的预训练量，评估了这种交互式学习对形式和功能语言能力的影响。研究发现，高层次的反馈具有很高的数据效率：仅通过交互式学习中的 100 万个单词的输入，故事生成技能的提升效果可以与 4.1 亿个单词的下一个词预测相当。

🔬 方法详解

问题定义：现有的大型语言模型在故事生成方面表现出色，但通常需要海量数据进行训练，成本高昂。此外，传统的训练方法主要依赖于下一个词预测，缺乏对故事质量（如可读性、连贯性和创造性）的直接反馈，导致模型难以生成高质量的故事。因此，如何利用更少的数据，并引入更有效的反馈机制，来提升语言模型的故事生成能力是一个重要的挑战。

核心思路：论文的核心思路是模仿人类通过交互学习语言的方式，引入一个教师模型来对学生模型生成的故事进行评估，并提供高层次的反馈。这种反馈不仅包括下一个词的预测，还包括对故事整体质量的评估，从而引导学生模型更好地学习如何生成高质量的故事。通过这种交互式学习，模型可以更有效地利用数据，并更快地提升故事生成能力。

技术框架：整体框架包含两个主要模块：学生模型和教师模型。学生模型负责生成故事，教师模型负责评估学生模型生成的故事的质量，并提供反馈。具体流程如下：1) 学生模型生成故事；2) 教师模型根据可读性、叙事连贯性和创造力对故事进行评分；3) 学生模型根据教师模型的评分进行学习，调整模型参数，以生成更高质量的故事。这个过程循环进行，直到学生模型达到预定的性能指标。

关键创新：最重要的技术创新点在于引入了高层次的认知反馈机制。与传统的下一个词预测相比，这种反馈机制能够更直接地指导模型学习如何生成高质量的故事。此外，论文还通过实验验证了这种交互式学习方法在数据效率上的优势，证明了其在减少数据需求方面的潜力。

关键设计：教师模型使用预训练的语言模型，并针对可读性、叙事连贯性和创造力三个指标进行微调。学生模型也使用预训练的语言模型，并通过强化学习的方式，根据教师模型的评分来调整生成策略。损失函数包括下一个词预测损失和基于教师模型评分的奖励函数。实验中，作者探索了不同的预训练量和反馈频率，以评估交互式学习的效果。

📊 实验亮点

实验结果表明，通过交互式学习，仅使用 100 万个单词的输入，故事生成技能的提升效果可以与使用 4.1 亿个单词进行下一个词预测的训练效果相当。这表明高层次的反馈具有极高的数据效率，能够显著降低模型训练的数据需求。此外，实验还验证了该方法在可读性、叙事连贯性和创造性等方面的提升效果。

🎯 应用场景

该研究成果可应用于儿童教育、创意写作辅助、游戏剧情生成等领域。通过交互式学习，可以训练出更具创造力和表达能力的小型语言模型，为用户提供个性化的故事生成服务，并降低模型训练的成本和资源消耗。未来，该方法有望推广到其他自然语言处理任务中，例如对话生成、文本摘要等。

📄 摘要（原文）

Children efficiently acquire language not just by listening, but by interacting with others in their social environment. Conversely, large language models are typically trained with next-word prediction on massive amounts of text. Motivated by this contrast, we investigate whether language models can be trained with less data by learning not only from next-word prediction but also from high-level, cognitively inspired feedback. We train a student model to generate stories, which a teacher model rates on readability, narrative coherence, and creativity. By varying the amount of pretraining before the feedback loop, we assess the impact of this interactive learning on formal and functional linguistic competence. We find that the high-level feedback is highly data efficient: With just 1 M words of input in interactive learning, storytelling skills can improve as much as with 410 M words of next-word prediction.

Once Upon a Time: Interactive Learning for Storytelling with Small Language Models

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册