Children's English Reading Story Generation via Supervised Fine-Tuning of Compact LLMs with Controllable Difficulty and Safety
作者: Qian Shen, Fanghua Cao, Min Yao, Shlok Gilda, Bonnie J. Dorr, Walter L. Leite
分类: cs.CL, cs.AI, cs.LG
发布日期: 2026-05-13
备注: Comments: 15 pages, 4 figures. Author Two and Author Three contributed equally. Accepted by the 21st Workshop on Innovative Use of NLP for Building Educational Applications (BEA 2026), ACL 2026
💡 一句话要点
通过监督式微调小型LLM,实现可控难度和安全性的儿童英语阅读故事生成。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 儿童英语阅读 故事生成 大型语言模型 监督式微调 难度控制 安全性 教育应用
📋 核心要点
- 现有LLM生成儿童故事难度不可控,且大型LLM成本高昂,限制了其在教育领域的应用。
- 通过微调小型LLM(8B参数),并以专家设计的儿童阅读课程数据为指导,实现故事难度和安全性的可控生成。
- 实验表明,微调后的8B LLM在难度相关指标上优于零样本GPT-4o和Llama 3.3 70B,且安全问题较少。
📝 摘要(中文)
大型语言模型(LLMs)已广泛应用于教育实践,例如生成儿童故事。然而,生成的故事通常对儿童来说过于困难,且LLMs的运营成本阻碍了其在教育环境中的广泛应用。我们利用现有的专家设计的儿童阅读课程以及GPT-4o和Llama 3.3 70B生成的相应故事,设计了不同的实验来微调三个80亿参数的LLMs,然后生成新的英语阅读故事,并对其进行定量和定性评估。我们的方法优先考虑可控性而非规模,使教育工作者能够使用紧凑且经济实惠的模型来定位阅读水平和错误模式。评估结果表明,通过适当的微调设计,8B LLMs生成的儿童英语阅读故事在与难度相关的指标上优于零样本GPT-4o和Llama 3.3 70B,且几乎没有明显的安全问题。这种微调后的LLMs可以被教师、家长和儿童更广泛地用于课堂和家庭中,以生成引人入胜的、具有儿童兴趣、可控难度和安全性的英语阅读故事。
🔬 方法详解
问题定义:论文旨在解决儿童英语阅读故事生成中,现有大型语言模型(LLM)生成的故事难度过高,以及模型部署和运行成本过高的问题。现有方法难以针对不同年龄段儿童的阅读水平进行有效控制,并且大型模型的安全风险也较高。
核心思路:论文的核心思路是通过监督式微调小型LLM(8B参数),利用专家设计的儿童阅读课程和对应生成的故事数据,使模型能够生成难度可控、安全且符合儿童兴趣的英语阅读故事。这种方法旨在降低模型规模和成本,同时提高生成故事的质量和适用性。
技术框架:整体框架包括以下几个主要阶段:1) 数据准备:收集专家设计的儿童阅读课程和GPT-4o、Llama 3.3 70B生成的故事数据。2) 模型选择:选择三个8B参数的LLM作为基础模型。3) 微调实验设计:设计不同的微调实验,针对阅读水平和错误模式进行优化。4) 故事生成:使用微调后的LLM生成新的英语阅读故事。5) 评估:对生成的故事进行定量和定性评估,包括难度、安全性和趣味性等方面。
关键创新:最重要的技术创新点在于,通过监督式微调小型LLM,实现了在保证故事质量的前提下,对生成故事的难度和安全性进行有效控制。与直接使用大型LLM相比,该方法降低了计算成本和部署难度,更易于在教育场景中推广应用。
关键设计:论文的关键设计包括:1) 使用专家设计的儿童阅读课程数据进行微调,确保生成的故事符合教育标准。2) 设计不同的微调实验,针对不同的阅读水平和错误模式进行优化。3) 采用定量和定性相结合的评估方法,全面评估生成故事的质量和适用性。具体的参数设置、损失函数和网络结构等技术细节在论文中未详细说明,属于未知信息。
🖼️ 关键图片
📊 实验亮点
实验结果表明,经过适当微调的8B LLM在难度相关指标上优于零样本GPT-4o和Llama 3.3 70B,并且几乎没有明显的安全问题。这表明,通过精细化的微调设计,小型LLM也能在特定任务上取得优异的性能,并降低计算成本。
🎯 应用场景
该研究成果可广泛应用于儿童英语教育领域,例如辅助教师备课、为家长提供个性化阅读材料、以及供儿童自主阅读。通过可控难度和安全性的故事生成,能够有效提升儿童的阅读兴趣和学习效果。未来,该技术还可扩展到其他语言和学科,为个性化教育提供更强大的支持。
📄 摘要(原文)
Large Language Models (LLMs) are widely applied in educational practices, such as for generating children's stories. However, the generated stories are often too difficult for children to read, and the operational cost of LLMs hinders their widespread adoption in educational settings. We used an existing expert-designed children's reading curriculum and its corresponding generated stories from GPT-4o and Llama 3.3 70B to design different experiments for fine-tuning three 8B-parameter LLMs, which then generated new English reading stories that were subjected to quantitative and qualitative evaluation. Our method prioritizes controllability over scale, enabling educators to target reading levels and error patterns with a compact, affordable model. Our evaluation results show that with appropriate fine-tuning designs, children's English reading stories generated by 8B LLMs perform better on difficulty-related metrics than those from zero-shot GPT-4o and Llama 3.3 70B, with almost no discernible safety issues. Such fine-tuned LLMs could be more broadly used by teachers, parents, and children in classrooms and at home to generate engaging English reading stories with children's interests, controllable difficulty and safety.