FANNO: Augmenting High-Quality Instruction Data with Open-Sourced LLMs Only

📄 arXiv: 2408.01323v1 📥 PDF

作者: He Zhu, Junyou Su, Tianle Lun, Yicheng Tao, Wenjia Zhang, Zipei Fan, Guanhua Chen

分类: cs.CL

发布日期: 2024-08-02


💡 一句话要点

FANNO:仅用开源LLM增强高质量指令数据,无需人工标注或昂贵API。

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 指令微调 数据增强 开源LLM 自动化标注 Mistral-7b 指令生成 响应生成

📋 核心要点

  1. 指令微调依赖高质量指令数据,但传统标注方法成本高昂,依赖人工或闭源API。
  2. FANNO提出全自动开源框架,利用Mistral-7b-instruct模型,无需预标注数据即可生成高质量指令数据。
  3. 实验表明,FANNO生成的数据在质量、多样性和复杂性上可与人工标注数据集媲美。

📝 摘要(中文)

指令微调是利用大型语言模型(LLMs)来增强任务性能的关键进展。然而,指令数据集的标注传统上是昂贵且费力的,通常依赖于人工标注或专有LLM的昂贵API调用。为了应对这些挑战,我们引入了FANNO,这是一个完全自主的开源框架,它彻底改变了标注过程,而无需预先存在的标注数据。FANNO利用Mistral-7b-instruct模型,通过包括文档预筛选、指令生成和响应生成的结构化过程,高效地生成多样且高质量的数据集。在Open LLM Leaderboard和AlpacaEval基准上的实验表明,FANNO可以免费生成具有多样性和复杂性的高质量数据,与人工标注或清理的数据集(如Alpaca-GPT4-Cleaned)相当。

🔬 方法详解

问题定义:现有指令微调依赖人工标注或昂贵的闭源LLM API,导致数据获取成本高、效率低。缺乏一种低成本、可扩展的指令数据生成方法。

核心思路:利用开源LLM(如Mistral-7b-instruct)的指令遵循能力,构建一个全自动的数据生成流程。通过精心设计的流程和筛选机制,保证生成数据的质量和多样性,从而替代人工标注或闭源API。

技术框架:FANNO框架包含三个主要阶段:1) 文档预筛选:从大量文档中筛选出适合生成指令的数据;2) 指令生成:利用LLM根据筛选后的文档生成指令;3) 响应生成:利用LLM根据指令和文档生成对应的响应。整个流程自动化运行,无需人工干预。

关键创新:FANNO的关键创新在于完全依赖开源LLM实现高质量指令数据的自动生成,摆脱了对人工标注和闭源API的依赖。通过结构化的流程和筛选机制,保证了生成数据的质量和多样性。

关键设计:文档预筛选阶段,使用关键词过滤和文本质量评估等方法,选择信息量丰富、表达清晰的文档。指令生成阶段,采用多样化的prompt模板,引导LLM生成不同类型的指令。响应生成阶段,使用温度系数控制LLM的生成多样性,并采用后处理方法过滤低质量的响应。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

实验结果表明,使用FANNO生成的数据训练的LLM在Open LLM Leaderboard和AlpacaEval基准上取得了与使用人工标注或清洗的数据集(如Alpaca-GPT4-Cleaned)训练的模型相当的性能。这证明了FANNO在生成高质量、多样化指令数据方面的有效性,且无需人工标注或昂贵的API调用。

🎯 应用场景

FANNO可应用于低资源语言的指令数据生成,加速LLM在特定领域的应用,降低指令微调的成本,促进LLM的开源生态发展。该方法还可用于生成对抗样本,提升LLM的鲁棒性。未来,可以探索将FANNO与其他数据增强技术结合,进一步提升生成数据的质量和多样性。

📄 摘要(原文)

Instruction fine-tuning stands as a crucial advancement in leveraging large language models (LLMs) for enhanced task performance. However, the annotation of instruction datasets has traditionally been expensive and laborious, often relying on manual annotations or costly API calls of proprietary LLMs. To address these challenges, we introduce FANNO, a fully autonomous, open-sourced framework that revolutionizes the annotation process without the need for pre-existing annotated data. Utilizing a Mistral-7b-instruct model, FANNO efficiently produces diverse and high-quality datasets through a structured process involving document pre-screening, instruction generation, and response generation. Experiments on Open LLM Leaderboard and AlpacaEval benchmark show that the FANNO can generate high-quality data with diversity and complexity for free, comparable to human-annotated or cleaned datasets like Alpaca-GPT4-Cleaned.