Small Language Model as Data Prospector for Large Language Model

作者: Shiwen Ni, Haihong Wu, Di Yang, Qiang Qu, Hamid Alinejad-Rokny, Min Yang

分类: cs.CL, cs.AI

发布日期: 2024-12-13

💡 一句话要点

SuperNUGGETS：利用小语言模型高效筛选高质量指令数据，提升大语言模型微调效果。

🎯 匹配领域: 支柱九：具身大模型 (Embodied Foundation Models)

关键词: 大语言模型 小语言模型 指令数据 数据筛选 微调 效率优化 NUGGETS

📋 核心要点

现有方法NUGGETS使用LLM筛选高质量指令数据，计算成本高昂，效率较低。
SuperNUGGETS采用SLM替代LLM进行数据筛选，并优化测试集，降低计算成本。
实验表明，SuperNUGGETS在性能略微下降的情况下，效率提升显著，资源消耗更低。

📝 摘要（中文）

指令数据的质量直接影响微调后的大语言模型（LLM）的性能。先前的工作NUGGETS通过识别和选择高质量数据来解决这个问题，它通过识别那些在作为一次性实例学习后能够显著提高不同任务性能的单个指令示例，从大型数据集中筛选数据。本文提出了SuperNUGGETS，它是NUGGETS的改进版本，针对效率和性能进行了优化。SuperNUGGETS使用小语言模型（SLM）而不是大语言模型（LLM）来过滤数据，以寻找出色的one-shot实例，并改进了预定义的测试集。实验结果表明，与NUGGETS相比，SuperNUGGETS的性能仅下降1-2%，但效率提高了58倍。与原始的NUGGETS相比，由于资源消耗显著降低，SuperNUGGETS具有更高的效用价值。

🔬 方法详解

问题定义：论文旨在解决大语言模型微调过程中，高质量指令数据筛选效率低下的问题。现有方法NUGGETS虽然能够有效筛选高质量数据，但依赖于大型语言模型进行评估，计算成本高昂，限制了其在大规模数据集上的应用。

核心思路：论文的核心思路是利用小语言模型（SLM）替代大语言模型（LLM）进行数据筛选。SLM虽然在绝对性能上不如LLM，但在相对排序和区分高质量数据方面仍然具有一定的能力，并且计算成本远低于LLM。通过牺牲少量性能，换取大幅提升的效率。

技术框架：SuperNUGGETS的整体框架与NUGGETS类似，主要包含以下几个阶段：1) 数据集准备：准备用于筛选的指令数据集。2) SLM筛选：使用SLM对数据集中的每个指令示例进行评估，筛选出潜在的高质量数据。3) 测试集优化：对预定义的测试集进行优化，提高测试的准确性和效率。4) 性能评估：使用筛选后的数据对LLM进行微调，并在测试集上评估性能。

关键创新：SuperNUGGETS的关键创新在于使用SLM替代LLM进行数据筛选。这种方法在保证一定性能的前提下，大幅降低了计算成本，提高了筛选效率。此外，论文还对测试集进行了优化，进一步提高了筛选的准确性。

关键设计：论文中关于SLM的选择和训练、测试集的优化策略等技术细节未知。但可以推测，SLM的选择需要考虑其在指令理解和生成方面的能力，以及计算成本。测试集的优化可能包括选择更具代表性的测试用例，或者采用更高效的评估指标。

🖼️ 关键图片

📊 实验亮点

实验结果表明，SuperNUGGETS在性能仅下降1-2%的情况下，效率提升了58倍。这意味着在相同的计算资源下，SuperNUGGETS可以处理更大规模的数据集，或者在更短的时间内完成数据筛选。这一显著的效率提升使得SuperNUGGETS在实际应用中具有更高的实用价值。

🎯 应用场景

该研究成果可应用于各种需要高质量指令数据的大语言模型微调场景，例如对话系统、文本生成、代码生成等。通过降低数据筛选的计算成本，可以更高效地构建高质量的指令数据集，从而提升大语言模型的性能和泛化能力。该方法还有助于在资源受限的环境下进行大语言模型的研究和应用。

📄 摘要（原文）

The quality of instruction data directly affects the performance of fine-tuned Large Language Models (LLMs). Previously, \cite{li2023one} proposed \texttt{NUGGETS}, which identifies and selects high-quality quality data from a large dataset by identifying those individual instruction examples that can significantly improve the performance of different tasks after being learnt as one-shot instances. In this work, we propose \texttt{SuperNUGGETS}, an improved variant of \texttt{NUGGETS} optimised for efficiency and performance. Our \texttt{SuperNUGGETS} uses a small language model (SLM) instead of a large language model (LLM) to filter the data for outstanding one-shot instances and refines the predefined set of tests. The experimental results show that the performance of \texttt{SuperNUGGETS} only decreases by 1-2% compared to \texttt{NUGGETS}, but the efficiency can be increased by a factor of 58. Compared to the original \texttt{NUGGETS}, our \texttt{SuperNUGGETS} has a higher utility value due to the significantly lower resource consumption.

Small Language Model as Data Prospector for Large Language Model

💡 一句话要点

📋 核心要点

📝 摘要（中文）

🔬 方法详解

🖼️ 关键图片

📊 实验亮点

🎯 应用场景

📄 摘要（原文）

⭐ 我的收藏

📁 新建收藏夹

⚙️ 管理收藏夹

🔍 搜索论文

🔐 登录 / 注册

👤 用户管理