DataEvolver: Automatic Data Preparation for Large Language Models through Multi-Level Self-Evolving
作者: Chao Deng, Shaolei Zhang, Ju Fan, Xiaoyong Du
分类: cs.DB, cs.AI
发布日期: 2026-06-05
💡 一句话要点
提出DataEvolver以解决大语言模型数据准备问题
🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)
关键词: 数据准备 自我演化 大语言模型 自动化 数据质量提升
📋 核心要点
- 现有的自动数据准备方法依赖于固定的管道,缺乏对多样化数据分布的适应性,导致数据质量不高。
- DataEvolver通过自我演化机制,自动构建数据准备管道,逐步优化数据质量,解决了现有方法的局限性。
- 在七个基准测试中,DataEvolver显著提高了数据质量,平均提升了下游LLM性能10%,展示了LLM与数据的迭代共演化的新机会。
📝 摘要(中文)
高质量的训练数据对大语言模型(LLMs)至关重要,但通常需要大量昂贵的人工整理。现有的自动数据准备方法依赖于预定义的管道或定制的人类指令,限制了其对多样化数据分布的适应性,并缺乏来自高质量示例的原则性指导。本文提出了DataEvolver,这是首个自我演化的数据准备系统,能够自动构建管道,将原始数据转化为高质量数据。DataEvolver采用多层机制,确保管道的可执行性和有效性。实验表明,DataEvolver显著提高了数据质量,并在下游LLM性能上平均提升了10%。
🔬 方法详解
问题定义:本文旨在解决大语言模型训练中高质量数据准备的挑战。现有方法依赖于人工干预和固定管道,导致适应性差和数据质量低下。
核心思路:DataEvolver的核心思想是通过自我演化机制,自动构建和优化数据准备管道,确保数据质量的提升与多样化数据分布的适应性。
技术框架:DataEvolver的整体架构包括两个主要层次:操作层和管道层。在操作层,系统逐步扩展操作符集以构建逻辑计划,并解决依赖冲突;在管道层,逻辑计划被实例化为可执行代码,并通过反馈循环迭代优化管道编排。
关键创新:DataEvolver的创新在于其自我演化能力,能够根据数据特性自动调整数据准备流程,与传统方法相比,具有更高的灵活性和适应性。
关键设计:在设计中,DataEvolver采用了动态扩展的操作符集和反馈机制,确保了管道的可执行性和有效性,具体参数设置和损失函数的选择均针对数据质量优化进行了精细调整。
🖼️ 关键图片
📊 实验亮点
在七个基准测试中,DataEvolver显著提高了数据质量,平均提升了下游LLM性能10%。这一结果表明,DataEvolver在数据准备领域的创新方法能够有效缩小准备数据与高质量示例之间的分布差距,展示了其在实际应用中的巨大潜力。
🎯 应用场景
DataEvolver的研究成果在多个领域具有广泛的应用潜力,包括自然语言处理、机器翻译和对话系统等。通过提高训练数据的质量,能够显著提升大语言模型的性能,进而推动智能应用的发展。未来,DataEvolver可能会在数据准备的自动化和智能化方面产生深远影响。
📄 摘要(原文)
High-quality training data is essential to large language models (LLMs) and typically requires extensive and costly manual curation. Existing automatic data preparation methods rely on predefined pipelines or customized human instructions, which limits their adaptability to diverse data distributions and lacks principled guidance from high-quality examples. In this paper, we introduce DataEvolver, the first self-evolving data preparation system that automatically constructs pipelines to transform raw data into high-quality data. DataEvolver employs a multi-level mechanism to ensure both pipeline executability and effectiveness. At the operator level, it incrementally expands the operator set to construct a logical plan while resolving dependency conflicts. At the pipeline level, it instantiates logical plans into executable code and iteratively refines pipeline orchestration through a feedback loop that reduces the distribution gap between prepared data and high-quality examples. Experiments on seven benchmarks show that DataEvolver substantially improves data quality and achieves an average 10\% gain in downstream LLM performance compared with training on original data, highlighting new opportunities for the iterative co-evolution of LLMs and data.