Towards Next-Generation LLM Training: From the Data-Centric Perspective

📄 arXiv: 2603.14712v1 📥 PDF

作者: Hao Liang, Zhengyang Zhao, Zhaoyang Han, Meiyi Qiang, Xiaochen Ma, Bohan Zeng, Qifeng Cai, Zhiyu Li, Linpeng Tang, Weinan E, Wentao Zhang

分类: cs.CL, cs.LG

发布日期: 2026-03-16


💡 一句话要点

面向下一代LLM训练:从数据中心视角出发,构建自动化数据准备与动态数据-模型交互系统

🎯 匹配领域: 支柱九:具身大模型 (Embodied Foundation Models)

关键词: 大型语言模型 数据中心 自动化数据准备 数据-模型交互 动态数据选择 数据混合 数据加权

📋 核心要点

  1. 当前LLM训练面临数据准备效率低、依赖人工脚本、缺乏自动化工作流的挑战。
  2. 论文提出构建基于代理的自动化数据准备系统,并设计统一的数据-模型交互训练系统。
  3. 该研究旨在提升数据利用效率,实现更高效、自适应和性能感知的LLM训练。

📝 摘要(中文)

大型语言模型(LLMs)在各种任务和领域中表现出了卓越的性能,而数据在实现这些进步中起着核心作用。尽管取得了这些成功,但LLM训练所需的海量数据集的准备和有效利用仍然是主要的瓶颈。在目前的实践中,LLM训练数据通常使用临时脚本构建,并且仍然缺乏成熟的、基于代理的数据准备系统,这些系统可以自动构建健壮且可重用的数据工作流程,从而将数据科学家从重复且容易出错的工程工作中解放出来。此外,一旦收集到数据集,通常会在训练过程中大量消耗,而没有用于数据选择、混合优化或重新加权的系统机制。为了解决这些局限性,我们提倡两个互补的研究方向。首先,我们建议构建一个健壮的、基于代理的自动数据准备系统,该系统支持自动工作流程构建和可扩展的数据管理。其次,我们主张建立一个统一的数据-模型交互训练系统,在该系统中,数据在整个训练过程中被动态地选择、混合和重新加权,从而实现更高效、自适应和性能感知的数据利用。最后,我们讨论了剩余的挑战,并概述了未来研究和系统开发的有希望的方向。

🔬 方法详解

问题定义:当前LLM训练严重依赖海量数据,但数据准备过程繁琐且低效,主要依赖人工编写的脚本,缺乏自动化和可重用性。此外,现有方法通常在训练过程中静态地使用整个数据集,忽略了数据选择、混合和加权的重要性,导致数据利用效率低下。

核心思路:论文的核心思路是从数据中心视角出发,构建一个自动化数据准备系统和一个统一的数据-模型交互训练系统。前者旨在自动化数据收集、清洗和转换等流程,后者旨在动态地选择、混合和加权数据,以优化模型训练过程。

技术框架:论文提出的框架包含两个主要组成部分:(1) 基于代理的自动化数据准备系统:该系统利用智能代理自动构建数据工作流,实现数据的自动化收集、清洗、转换和管理。 (2) 统一的数据-模型交互训练系统:该系统在训练过程中动态地选择、混合和重新加权数据,从而实现更高效、自适应和性能感知的数据利用。

关键创新:论文的关键创新在于提出了一个全面的数据驱动的LLM训练框架,该框架强调数据准备的自动化和数据利用的动态性。与现有方法相比,该框架能够显著提高数据准备效率,并优化模型训练过程。

关键设计:论文中关于自动化数据准备系统的具体设计细节(如代理的类型、工作流的构建方法等)以及数据-模型交互训练系统的具体实现(如数据选择、混合和加权的策略等)并未详细描述,属于未来的研究方向。损失函数和网络结构沿用现有LLM训练方法。

🖼️ 关键图片

fig_0
fig_1
fig_2

📊 实验亮点

由于是研究方向的倡议,论文没有提供具体的实验结果。其亮点在于提出了下一代LLM训练的新思路,强调数据中心视角,并提出了构建自动化数据准备系统和动态数据-模型交互训练系统的概念。

🎯 应用场景

该研究成果可应用于各种需要大规模语言模型支持的领域,例如智能客服、机器翻译、文本生成、知识问答等。通过提高数据准备效率和数据利用率,可以降低LLM的训练成本,并提升模型的性能,从而推动人工智能技术的广泛应用。

📄 摘要(原文)

Large language models (LLMs) have demonstrated remarkable performance across a wide range of tasks and domains, with data playing a central role in enabling these advances. Despite this success, the preparation and effective utilization of the massive datasets required for LLM training remain major bottlenecks. In current practice, LLM training data is often constructed using ad hoc scripts, and there is still a lack of mature, agent-based data preparation systems that can automatically construct robust and reusable data workflows, thereby freeing data scientists from repetitive and error-prone engineering efforts. Moreover, once collected, datasets are often consumed largely in their entirety during training, without systematic mechanisms for data selection, mixture optimization, or reweighting. To address these limitations, we advocate two complementary research directions. First, we propose building a robust, agent-based automatic data preparation system that supports automated workflow construction and scalable data management. Second, we argue for a unified data-model interaction training system in which data is dynamically selected, mixed, and reweighted throughout the training process, enabling more efficient, adaptive, and performance-aware data utilization. Finally, we discuss the remaining challenges and outline promising directions for future research and system development.