Once Upon a Time: Interactive Learning for Storytelling with Small Language Models

📄 arXiv: 2509.15714v1 📥 PDF

作者: Jonas Mayer Martins, Ali Hamza Bashir, Muhammad Rehan Khalid, Lisa Beinborn

分类: cs.CL, cs.AI

发布日期: 2025-09-19

备注: EMNLP 2025, BabyLM Challenge; 16 pages, 6 figures


💡 一句话要点

提出交互式学习框架,利用认知反馈提升小语言模型的故事生成能力。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 交互式学习 故事生成 小语言模型 认知反馈 数据效率

📋 核心要点

  1. 现有大型语言模型依赖海量数据进行训练,忽略了人类通过交互学习语言的特性。
  2. 论文提出交互式学习框架,通过教师模型提供可读性、连贯性和创造性反馈来指导学生模型。
  3. 实验表明,该方法在少量数据下即可显著提升故事生成能力,数据效率远超传统方法。

📝 摘要(中文)

儿童通过与社交环境互动来高效地学习语言,而大型语言模型通常通过在海量文本上进行下一词预测来训练。受此对比的启发,本文研究了语言模型是否可以通过不仅从下一词预测中学习,还从高层次、认知启发的反馈中学习,从而用更少的数据进行训练。我们训练一个学生模型来生成故事,教师模型根据可读性、叙事连贯性和创造力对故事进行评分。通过改变反馈循环前的预训练量,我们评估了这种交互式学习对形式和功能语言能力的影响。我们发现高层次的反馈具有很高的数据效率:仅需100万字的交互式学习输入,故事生成技能的提升就相当于4.1亿字的下一词预测。

🔬 方法详解

问题定义:现有的大型语言模型通常需要海量数据进行训练,并且主要依赖于下一词预测这种自监督学习方式。这种方式忽略了人类在学习语言时,通过与环境交互并获得反馈的重要性。因此,如何利用更少的数据,通过模拟人类的交互学习方式,提升语言模型的能力是一个重要的研究问题。

核心思路:论文的核心思路是引入一个教师模型,对学生模型生成的故事进行评估,并提供高层次的反馈,例如可读性、叙事连贯性和创造性。学生模型根据这些反馈进行学习,从而提升其故事生成能力。这种交互式学习方式模拟了人类在社交环境中学习语言的过程,可以更有效地利用数据。

技术框架:整体框架包含两个主要模块:学生模型和教师模型。学生模型负责生成故事,教师模型负责评估故事的质量并提供反馈。具体流程如下:1) 学生模型生成故事;2) 教师模型根据可读性、叙事连贯性和创造性对故事进行评分;3) 学生模型根据教师模型的评分进行学习,调整模型参数。这个过程迭代进行,直到学生模型的故事生成能力达到预期水平。

关键创新:最重要的创新点在于引入了高层次的认知反馈机制。传统的语言模型训练主要依赖于下一词预测,而该方法则引入了可读性、叙事连贯性和创造性等更高级别的反馈信号。这些反馈信号能够更直接地指导学生模型生成高质量的故事,从而提高数据效率。

关键设计:教师模型使用预训练的语言模型,并针对可读性、叙事连贯性和创造性等指标进行微调。学生模型也使用预训练的语言模型,并通过强化学习或监督学习的方式,根据教师模型的反馈进行学习。损失函数的设计需要考虑如何将教师模型的评分转化为可用于训练学生模型的信号。具体的参数设置和网络结构的选择取决于具体的实验设置和数据集。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,通过交互式学习,学生模型仅使用100万字的输入,其故事生成能力就可以达到使用4.1亿字进行下一词预测的水平。这表明高层次的反馈具有极高的数据效率,可以显著降低语言模型的训练成本。此外,实验还验证了该方法在不同预训练量下的有效性。

🎯 应用场景

该研究成果可应用于教育领域,例如开发个性化的故事生成工具,帮助儿童学习语言和提高写作能力。此外,该方法还可以用于创作辅助工具,帮助作家和编剧生成高质量的故事内容。未来,可以将这种交互式学习框架扩展到其他语言任务,例如对话生成和文本摘要。

📄 摘要(原文)

Children efficiently acquire language not just by listening, but by interacting with others in their social environment. Conversely, large language models are typically trained with next-word prediction on massive amounts of text. Motivated by this contrast, we investigate whether language models can be trained with less data by learning not only from next-word prediction but also from high-level, cognitively inspired feedback. We train a student model to generate stories, which a teacher model rates on readability, narrative coherence, and creativity. By varying the amount of pretraining before the feedback loop, we assess the impact of this interactive learning on formal and functional linguistic competence. We find that the high-level feedback is highly data efficient: With just 1 M words of input in interactive learning, storytelling skills can improve as much as with 410 M words of next-word prediction.