TF1-EN-3M: Three Million Synthetic Moral Fables for Training Small, Open Language Models
作者: Mihai Nadas, Laura Diosan, Andrei Piscoran, Andreea Tomescu
分类: cs.CL, cs.AI, cs.DL, cs.LG
发布日期: 2025-04-29
💡 一句话要点
提出TF1-EN-3M:一个用于训练小型开放语言模型的包含三百万条合成道德寓言的数据集。
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 道德寓言 合成数据 语言模型 指令跟随 价值对齐
📋 核心要点
- 现有NLP缺乏大型结构化语料库,难以将连贯叙事与明确道德教训结合,限制了相关研究。
- 论文提出TF1-EN-3M,一个包含三百万条英语寓言的数据集,通过组合提示工程保证体裁忠实性。
- 实验表明,8B参数的Llama-3变体在消费级GPU上能以低成本生成高质量寓言,实现质量与速度的平衡。
📝 摘要(中文)
道德故事是传递价值观的有效载体,但现代自然语言处理缺乏大型、结构化的语料库,将连贯的叙事与明确的道德教训相结合。我们通过TF1-EN-3M弥补了这一空白,这是第一个完全由不超过80亿参数的指令调整模型生成的包含三百万条英语寓言的开放数据集。每个故事都遵循一个六个槽位的框架(角色 -> 特征 -> 设置 -> 冲突 -> 解决方案 -> 道德),通过组合提示引擎生成,保证了体裁的忠实性,同时涵盖了广泛的主题空间。混合评估流程结合了(i)基于GPT的评论家,对语法、创造力、道德清晰度和模板遵守情况进行评分,以及(ii)无参考的多样性和可读性指标。在十个开放权重候选模型中,一个80亿参数的Llama-3变体提供了最佳的质量-速度权衡,在单个消费级GPU(<24 GB VRAM)上以每1000条寓言约13.5美分的价格生成高质量的寓言。我们以宽松的许可证发布数据集、生成代码、评估脚本和完整元数据,从而实现精确的可重复性和成本基准测试。TF1-EN-3M为指令跟随、叙事智能、价值对齐和儿童友好的教育人工智能的研究开辟了道路,表明大规模的道德故事讲述不再需要专有的巨型模型。
🔬 方法详解
问题定义:当前NLP领域缺乏大规模、结构化的道德故事语料库,这阻碍了在指令跟随、叙事智能和价值对齐等方面的研究进展。现有方法依赖于人工标注或小型数据集,成本高昂且规模有限。此外,缺乏对生成故事的质量和道德清晰度的系统评估。
核心思路:论文的核心思路是利用指令调整的小型语言模型(8B参数)自动生成大规模的道德寓言数据集。通过精心设计的组合提示工程,确保生成的故事在体裁上保持一致,并覆盖广泛的主题空间。同时,采用混合评估流程,结合GPT-based评论家和无参考指标,对生成故事的质量进行全面评估。
技术框架:整体流程包括以下几个阶段:1)使用组合提示引擎生成故事框架(角色、特征、设置、冲突、解决方案、道德);2)利用指令调整的语言模型(Llama-3变体)填充故事框架,生成完整的寓言;3)使用GPT-based评论家对生成的故事进行质量评估(语法、创造力、道德清晰度、模板遵守情况);4)使用无参考指标评估故事的多样性和可读性;5)发布数据集、生成代码、评估脚本和元数据。
关键创新:该论文的关键创新在于:1)提出了一个大规模的合成道德寓言数据集,填补了现有NLP领域的空白;2)采用组合提示工程,保证了生成故事的体裁忠实性和主题多样性;3)设计了一个混合评估流程,结合了GPT-based评论家和无参考指标,对生成故事的质量进行了全面评估;4)证明了小型语言模型也能生成高质量的道德故事,降低了生成大规模数据集的成本。
关键设计:组合提示引擎的设计是关键。它通过预定义的角色、特征、设置、冲突、解决方案和道德模板,生成不同的提示组合,从而保证生成故事的多样性。GPT-based评论家使用预训练的GPT模型,并针对道德故事的评估进行了微调。无参考指标包括BLEU、ROUGE等,用于评估生成故事的多样性。Llama-3变体采用8B参数,并在指令跟随任务上进行了微调。
🖼️ 关键图片
📊 实验亮点
实验结果表明,8B参数的Llama-3变体在单个消费级GPU(<24 GB VRAM)上,能够以每1000条寓言约13.5美分的成本生成高质量的寓言。GPT-based评论家给出的平均质量评分较高,表明生成的故事在语法、创造力、道德清晰度和模板遵守情况等方面表现良好。与现有方法相比,该方法在生成大规模道德故事数据集方面具有显著的成本优势。
🎯 应用场景
该研究成果可应用于多个领域,包括:1) 教育领域,用于开发儿童友好的教育AI,通过寓言故事传递价值观;2) 叙事智能领域,用于训练模型生成更具吸引力和道德意义的故事;3) 价值对齐领域,用于研究如何使AI系统更好地理解和遵循人类价值观。该数据集的发布将促进相关领域的研究进展。
📄 摘要(原文)
Moral stories are a time-tested vehicle for transmitting values, yet modern NLP lacks a large, structured corpus that couples coherent narratives with explicit ethical lessons. We close this gap with TF1-EN-3M, the first open dataset of three million English-language fables generated exclusively by instruction-tuned models no larger than 8B parameters. Each story follows a six-slot scaffold (character -> trait -> setting -> conflict -> resolution -> moral), produced through a combinatorial prompt engine that guarantees genre fidelity while covering a broad thematic space. A hybrid evaluation pipeline blends (i) a GPT-based critic that scores grammar, creativity, moral clarity, and template adherence with (ii) reference-free diversity and readability metrics. Among ten open-weight candidates, an 8B-parameter Llama-3 variant delivers the best quality-speed trade-off, producing high-scoring fables on a single consumer GPU (<24 GB VRAM) at approximately 13.5 cents per 1,000 fables. We release the dataset, generation code, evaluation scripts, and full metadata under a permissive license, enabling exact reproducibility and cost benchmarking. TF1-EN-3M opens avenues for research in instruction following, narrative intelligence, value alignment, and child-friendly educational AI, demonstrating that large-scale moral storytelling no longer requires proprietary giant models.