ENTP: Enhancing Low-Quality SFT Data via Neural-Symbolic Text Purge-Mix
作者: Zile Yang, Ling Li, Na Di, Jinlong Pang, Yao Zhou, Hao Cheng, Bo Han, Jiaheng Wei
分类: cs.CL
发布日期: 2025-10-27
💡 一句话要点
ENTP:通过神经-符号文本清洗混合增强低质量SFT数据
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 监督式微调 低质量数据增强 神经-符号结合 指令跟随 数据净化
📋 核心要点
- 现有SFT方法依赖高质量数据,忽略了低质量数据中潜在的有用信息,且质量过滤本身存在局限性。
- ENTP框架通过符号净化和神经重构,从低质量数据中提取并增强信息,提升数据质量和多样性。
- 实验表明,ENTP增强的低质量数据集性能超越多种数据选择基线,甚至超过在完整原始数据集上的微调。
📝 摘要(中文)
监督式微调(SFT)通过在精心策划的高质量指令-响应对子集上训练,使预训练的大型语言模型(LLM)适应特定领域的指令。然而,现有的质量优先范式通常忽略了被丢弃的低质量数据中的有价值信号,并且依赖于不完善的质量过滤器。我们引入ENTP(通过神经-符号文本清洗混合增强低质量SFT数据),该框架通过符号净化和神经重构来恢复低质量语料库。符号模块基于统计先验识别和修剪噪声样本,而神经组件通过利用潜在表示和模型知识来合成丰富的指令-响应对。这种神经-符号协同作用增强了数据的信息性和多样性。实验表明,完全由低质量数据构建的ENTP增强数据集,在五个指令跟随基准测试中优于13个已建立的数据选择基线,甚至超过了在完整原始数据集(约30万个示例)上的微调。我们的结果突出了低质量数据的未开发潜力,并强调了智能净化和合成对于有效指令对齐的重要性。
🔬 方法详解
问题定义:论文旨在解决如何有效利用低质量监督微调(SFT)数据的问题。现有方法通常直接丢弃低质量数据,或者依赖不完善的质量过滤器,导致有价值的信息被浪费。因此,如何从低质量数据中提取有用信息,并将其转化为高质量的训练数据,是本研究要解决的核心问题。
核心思路:ENTP的核心思路是通过神经-符号结合的方式,对低质量数据进行净化和增强。首先,利用符号方法识别并去除噪声样本;然后,利用神经方法,基于模型已有的知识和数据的潜在表示,合成新的、高质量的指令-响应对。这种结合既能保证数据的质量,又能增加数据的多样性。
技术框架:ENTP框架包含两个主要模块:符号净化模块和神经重构模块。符号净化模块利用统计先验知识,例如文本长度、重复率等,识别并去除低质量或噪声样本。神经重构模块则利用大型语言模型(LLM)的潜在表示和生成能力,对剩余的低质量数据进行增强,生成新的指令-响应对。这两个模块协同工作,共同提升数据的质量和多样性。
关键创新:ENTP的关键创新在于其神经-符号结合的方法。传统的SFT方法要么依赖人工标注的高质量数据,要么使用简单的规则过滤低质量数据。ENTP则将符号规则和神经模型结合起来,既能利用符号规则的精确性,又能发挥神经模型的泛化能力,从而更有效地利用低质量数据。
关键设计:符号净化模块的关键设计在于选择合适的统计先验知识,并设定合理的阈值。神经重构模块的关键设计在于如何利用LLM的潜在表示生成高质量的指令-响应对。具体来说,可以使用条件生成模型,以原始指令为条件,生成新的响应;或者使用文本编辑模型,对原始响应进行修改和完善。损失函数可以包括生成损失、判别损失等,以保证生成数据的质量和多样性。
🖼️ 关键图片
📊 实验亮点
实验结果表明,使用ENTP增强的低质量数据集,在五个指令跟随基准测试中,性能优于13个已建立的数据选择基线,甚至超过了在完整原始数据集(约30万个示例)上的微调。这表明ENTP能够有效提升低质量数据的利用率,并显著提升LLM的指令跟随能力。
🎯 应用场景
ENTP可应用于各种需要利用大规模SFT数据的场景,尤其是在数据质量参差不齐的情况下。例如,可以用于提升特定领域LLM的性能,如医疗、金融等。此外,该方法还可以降低数据标注成本,减少对高质量数据的依赖,从而加速LLM的开发和部署。
📄 摘要(原文)
Supervised Fine-Tuning (SFT) adapts pre-trained Large Language Models (LLMs) to domain-specific instructions by training on a carefully curated subset of high-quality instruction-response pairs, typically drawn from a larger dataset that often contains many low-quality or noisy samples. However, existing quality-first paradigms often overlook valuable signals in discarded low-quality data and rely on imperfect quality filters. We introduce ENTP (Enhancing low-quality SFT data via Neural-symbolic Text Purge-Mix), a framework that revitalizes low-quality corpora through symbolic purification and neural reconstruction. The symbolic module identifies and prunes noisy samples based on statistical priors, while the neural component synthesizes enriched instruction-response pairs by leveraging latent representations and model knowledge. This neural-symbolic synergy enhances data informativeness and diversity. Experiments show that ENTP-augmented datasets, constructed exclusively from low-quality data, outperform 13 established data-selection baselines across five instruction-following benchmarks, and even surpass fine-tuning on the full original dataset (approximately 300K examples). Our results highlight the untapped potential of low-quality data and underscore the importance of intelligent purification and synthesis for efficient instruction alignment.